ECCV 2025|是真看到了,还是以为自己看到了?多模态大模型对文本预训练知识的过度依赖该解决了


AIxiv专栏是本站发布学术、技术内容的栏目。过去数年,本站AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

本文第一作者皮仁杰是香港科技大学三年级博士生,师从张潼教授和周晓方教授。此前获得香港大学计算机工程学士学位。研究兴趣为多模态大语言模型,以数据为中心的人工智能,以及自动化机器学习。

随着大型语言模型(llms)的进步,多模态大型语言模型(mllms)迅速发展。它们使用预训练的视觉编码器处理图像,并将图像与文本信息一同作为 token 嵌入输入至 llms,从而扩展了模型处理图像输入的对话能力。这种能力的提升为自动驾驶和医疗助手等多种潜在应用领域带来了可能性。

尽管 MLLMs 具有出色的图文理解能力,但它们仍然会出现错误或幻觉,生成与输入图像不相符的相应,例如回答不存在的对象或错误识别属性等。我们认为多模态大模型在不同训练阶段的数据量和训练时间的不平衡是产生这类偏见的主要原因之一。多模态大模型的语言模块往往使用了海量的文本数据进行预训练,而模态对齐阶段则使用更小的数据规模和更短的训练时间。

为了解决上述问题,我们提出了一种偏好对齐方法 --Bootstrapped Preference Optimization(BPO),能在缓解多模态大模型的幻觉现象的同时提升模型的视觉理解能力。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

  • 论文标题:Strengthening Multimodal Large Language Model with Bootstrapped Preference Optimization
  • 论文链接:https://arxiv.org/pdf/2403.08730
  • 代码链接:https://github.com/pipilurj/bootstrapped-preference-optimization-BPO-

具体来讲,我们设计了两种方法去自动构建偏好学习的负样本,使得多模态模型对与训练的过度依赖暴露出来。之后,我们用原本的数据标注当作正样本,对多模态模型进行偏好微调。总的来说,我们的主要贡献有:
 
1. 我们提出了一种新的视角,将多模态对齐问题转化为偏好学习任务,其中预训练偏见和视觉理解能力被视为旧的和新的偏好;

2. 我们介绍了一种自动化构建大规模偏好数据集的方法。通过该方法能构造出大量带有预训练偏见信息的负面样本;

3. 在大量实验上证明了我们的方法能有效地提升多模态大模型对于图像的认知能力,训练后的模型在多个基准测试中性能得到提升。
 
可扩展的偏好数据集构建

对于偏好数据集的正面样本,已经有许多为监督微调而设计的现成数据集,例如通过 LlaVA 和 MiniGPT4 生成的高质量标注问答数据、ShareGPTV 利用强大的 GPT4-V 作为工具为图像生成高质量标题。我们将这些已标注完成的公开数据集作为偏好数据集中的正面响应,在保证高质量数据对的同时避免了昂贵的人工标注。

为了能收集到能反映预训练偏见的负面响应数据,我们提出了两种方法。

a. 弱化图像提示:我们给偏好数据集中的图片数据加上噪声,以此破坏图像特征,使多模态大模型在回答时更倾向原始的预训练分布,由此产生的错误响应会包含 LLM 模块的固有偏见。从图中可以看到,我们通过像图片中加入不同程度的噪声,正确答案出现的概率就越小,带有预训练偏见的答案出现的概率也就越大。

b. 错误注入:我们要求多模态大模型对应的大语言模型直接改写响应,要求模型生成与答案相近但不完全一样的错误回答。
 
接下来,我们采用直接偏好优化(DPO)对多模态模型进行优化:

实验评估

我们采用经过 BPO 微调过后的 LLaVA 模型(LLaVA-7B-BPO 和 LLaVA-13B-BPO)在 MM-Vet,LLaVA-Wild 和 Object HalBench 上测试。MM-Vet 和 LlaVA-Bench 是专门用来衡量模型综合能力的榜单,Object HalBench 则是评估多模态大模型的视觉可信度。

实验结果表明,经过 BPO 微调后的模型在三个基准测试榜单的所有任务中均取得领先。在大多数任务上,LLaVA-7B-BPO 的表现甚至超过了未曾微调的 LLaVa1.5-13B 模型。

我们还将 BPO 与监督微调训练(SFT)进行对比。我们通过直接使用数据集中的正样本作为监督数据对模型进行微调。实验表明经过 BPO 微调过的多模态大模型在不同类别的子任务下的表现均优于 SFT 微调。

在定性结果上,我们对比了 BPO 微调前后多模态大模型的表现。我们发现经过 BPO 微调后的模型能生成更忠诚于图像输入的答案,并且包含更少错误信息。

更多研究细节,可参考原论文。


# 多模  # 多个  # 也就  # 如果您  # 数年  # 榜单  # 香港  # 两种  # 高质量  # 提出了  # bootstrap  # 自动化  # https  # 人工智能  # github  # 对象  # Token  # Object  # git 


相关栏目: 【 Google疑问12 】 【 Facebook疑问10 】 【 网络优化91478 】 【 技术知识72672 】 【 云计算0 】 【 GEO优化84317 】 【 优选文章0 】 【 营销推广36048 】 【 网络运营41350 】 【 案例网站102563 】 【 AI智能45237


相关推荐: 旅游营销AI:ChatGPT邮件营销策略,提升旅游业务转化率  AI vs. 人工书籍教练:哪个更适合你?终极指南  雷小兔ai智能写作如何优化语句_雷小兔ai智能写作语句润色技巧【攻略】  颠覆认知!《小丑回魂》幕后:用爆笑台词颠覆你的恐怖想象  怎么用ai生成配色方案 AI设计色彩搭配与灵感获取【技巧】  XRAI Glass:AI赋能的增强现实眼镜,对话新体验  教你用AI帮你进行论文选题,快速找到有研究价值的方向  教你用AI把照片变成动漫风格,3个简单步骤刷爆朋友圈  AI客服工具:24/7全天候支持业务增长的秘密武器  通义千问怎样优化提示词减冗余_通义千问减冗余技巧【方法】  Dr.Job AI:职场简历优化终极指南,提升求职成功率  AI学习秘籍:3个高效黑科技,解锁智能学习新时代  如何用 ChatGPT 批量处理 Excel 复杂公式  豆包AI怎么优化年终总结语言_豆包AI文案润色与正式语气调整【指南】  EdrawMind终极评测:AI赋能思维导图,提升效率与创造力  找不到百度AI助手入口 最新官网登录入口  阿里通义app怎么用_阿里通义app使用方法详细指南【教程】  百度浏览器侧边栏ai怎么关 百度浏览器ai侧边栏隐藏  AI 时代高效开发:版本控制与 AI 协同工作流  普通人如何用豆包AI月入过万?2026最新内容创作变现全攻略!  美图秀秀AI抠图如何修复抠图误差_美图秀秀AI误差修复与手动涂抹【指南】  稿定设计AI抠图怎样处理复杂边缘_稿定设计AI复杂边缘细化技巧【技巧】  Claude怎样写引导型提示词_Claude引导提示词写法【方法】  AI赋能!图形设计师必备的顶级AI工具  Azure AI 文本分类指南:自定义模型,提高文本分析精度  怎么用ai做证件照换底色 AI一键抠图与背景色替换【方法】  Excel Copilot:AI驱动的数据分析革命,提升效率秘籍  PlotDot Horizon:AI编剧工具颠覆好莱坞?深度评测  利用 ChatGPT 进行高质量代码重构与优化  通义万相做小红书配图怎么用_通义万相做小红书配图使用方法详细指南【教程】  AI赋能项目管理:5个实用技巧提升效率  P&ID图完全解析:符号、应用及绘制指南  豆包AI能否生成领导汇报版总结_豆包AI汇报版精简与结构调整【教程】  提升房地产业务:AI语音助手赋能房地产经纪公司  Semrush Summary Generator: 高效总结长篇文章的终极指南  AI面试作弊与反作弊:求职者与企业的博弈  怎么用ai进行用户画像分析 AI消费行为与兴趣标签提炼【详解】  Gemini 辅助进行多平台社交媒体内容调度  ATS优化:Euron ResumeAI打造高效求职简历  智谱清言分析数据怎么用_智谱清言分析数据使用方法详细指南【教程】  图像分割技术详解:定义、类型、技术与应用  百度APP搜索框ai怎么关 百度APP搜索框ai图标去除  ChatGPT怎样用提示词分步骤提问_ChatGPT分步提问技巧【方法】  ChatGPT 辅助自媒体博主进行选题与大纲策划  Agentic Testing入门:使用Playwright和Claude Code构建自动化框架  使用Autogen框架进行业务分析和执行报告生成  ChatGPT 提示词工程:结构化指令编写指南  通义千问网页版怎么切换账号_通义千问账号切换步骤【指南】  AI面试助手:提升招聘效率的终极工具  PandaDoc vs. SignEasy: 2025 eSignature 平台终极对比 

 2024-07-28

了解您产品搜索量及市场趋势,制定营销计划

同行竞争及网站分析保障您的广告效果

点击免费数据支持

提交您的需求,1小时内享受我们的专业解答。

南京市珐之弘网络技术有限公司


南京市珐之弘网络技术有限公司

南京市珐之弘网络技术有限公司专注海外推广十年,是谷歌推广.Facebook广告全球合作伙伴,我们精英化的技术团队为企业提供谷歌海外推广+外贸网站建设+网站维护运营+Google SEO优化+社交营销为您提供一站式海外营销服务。

 87067657

 13565296790

 87067657@qq.com

Notice

We and selected third parties use cookies or similar technologies for technical purposes and, with your consent, for other purposes as specified in the cookie policy.
You can consent to the use of such technologies by closing this notice, by interacting with any link or button outside of this notice or by continuing to browse otherwise.