加入收藏 | 设为首页 | 会员中心 | 我要投稿 晋中站长网 (https://www.0354zz.com/)- 科技、容器安全、数据加密、云日志、云数据迁移!
当前位置: 首页 > 大数据 > 正文

中山大学HCP实验室新进展用因果范式再升级多模态大模型

发布时间:2023-05-23 17:30:53 所属栏目:大数据 来源:网络
导读:   中山大学人机物智能融合实验室(HCP)在 AIGC 及多模态大模型方面成果丰硕,已先后十余篇论文入选近期的 AAAI 2023及 CVPR 2023,排名全球第一。



  其中一个工作实现了用因果模
  中山大学人机物智能融合实验室(HCP)在 AIGC 及多模态大模型方面成果丰硕,已先后十余篇论文入选近期的 AAAI 2023及 CVPR 2023,排名全球第一。
 
  其中一个工作实现了用因果模型来显著提升多模态模型在调优中的可控及泛化性——《Masked Images Are Counterfactual Samples for Robust Fine-tuning》。
 
  使用预训练的大规模模型在下游任务上进行微调是当前流行的深度学习方式。尤其是近期预训练语言模型 ChatGPT 的出色表现,使得这套技术范式得到了广泛的认可。经过海量数据的预训练,这些预训练模型能够适应现实环境中多变的数据分布,因而在通用场景中表现出较强的鲁棒性。
 
  然而,当使用下游场景数据对预训练大模型进行微调以适应特定应用任务时,绝大多数情况下这些数据具有单一性。以这些数据对预训练大模型进行微调训练,往往会降低模型鲁棒性,使基于预训练大模型的应用变得困难。特别是在视觉模型方面,由于图像的多样性远远超过语言,下游微调训练导致视觉相关的预训练大模型鲁棒性下降的问题尤其突出。
 
  之前的研究方法通常通过模型集成等方式在模型参数层面隐式地保持微调后预训练模型的鲁棒性。但是,这些工作并没有分析微调导致模型分布外性能下降的本质原因,也没有明确解决上述大模型微调后鲁棒性下降的问题。
 
  该工作以跨模态大模型为基础,从因果关系的角度分析了预训练大模型鲁棒性损失的本质原因,并据此提出了一种能够显著提升模型鲁棒性的微调训练方法。该有限元方法使得模型在适应下游集中管理任务的同时,仍能相对保持较强的鲁棒性,更好有效的地满足工业机器人实际应用开发人员的需求。
 
  以 OpenAI 在 2021 年发布的跨模态预训练大模型 CLIP(Contrastive Language–Image Pre-training)为例:CLIP 是一种基于对比的图片 - 文本联合学习的跨模态预训练大模型,是 Stable Diffusion 等生成式模型的基础。该模型通过包含约 4 亿个图像 - 文本对的海量多源数据进行训练,在一定程度上学习到了一些对于分布变化鲁棒的因果关系。
 
  然而,当用特征单一的下游数据对 CLIP 进行微调时,容易破坏模型学习到的这些因果知识,因为训练图像的非语义表征和语义表征是高度纠缠的。例如,将 CLIP 模型迁移应用到 “农场” 这一下游场景时,许多训练图像中的 “奶牛” 都在草地上。此时,微调训练可能使模型学习到依赖草地这一非 “奶牛” 的语义表征来预测图像的语义。然而,这种相关性并不一定是真实的,例如 “奶牛” 也可能出现在公路上。因此,模型在进行微调训练后,其鲁棒性会降低,应用时的输出结果可能变得极不稳定,缺乏可控性。
 
  基于团队多年的大模型搭建和训练经验,该工作从因果关系的角度重新审视了预训练模型微调导致鲁棒性下降的问题。基于因果建模与分析,该工作提出了一种基于图像掩码构造反事实样本,并通过掩码图像学习提高模型鲁棒性的微调训练方法。
 
  具体而言,为了打破下游训练图像中的假性相关,该工作提出了一种基于类激活图(CAM)的方法掩盖并替换图像特定区域的内容,用以操纵图像的非语义表征或语义表征,产生反事实样本。微调模型可以通过蒸馏的方式学习模仿预训练模型对这些反事实样本的表征,从而更好地解耦语义因素与非语义因素的影响,提高对下游领域中分布偏移的适应能力。
 
  实验表明,该方法能够显著提高预训练模型在下游任务中的性能,同时在提升鲁棒性方面相较于现有大模型微调训练方法有显著优势。
 
  该工作的重要意义是在一定程度上打开了预训练大模型从深度学习范式中继承的 “黑盒子”,是解决大模型的 “可解释性” 和 “可控性” 问题的重要探索,让我们离切实可享受的由预训练大模型带领的生产力提升越来越近。
 
  中山大学 HCP 团队自 Transformer 机制问世起,从事大模型技术范式研究多年,致力于提升大模型的训练效率和引入因果模型来解决大模型的 “可控性” 问题。团队多年来自主研究开发了多个视觉、语言、语音和跨模态的预训练大模型,与华为诺亚方舟实验室联合开发的 “悟空” 跨模态大模型即是其中的典型案例。据介绍,“悟空”跨模态大模型基于人工智能领域最前沿的深度学习框架mindspore,通过多模态融合训练技术,可以有效提升语音识别准确率。

(编辑:晋中站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    推荐文章