系统回顾深度强化学习预训练,在线、离线等研究这一篇就够了


近年来,强化学习 (RL) 在深度学习的带动下发展迅速,从游戏到机器人领域的各种突破,激发了人们对设计复杂、大规模 RL 算法和系统的兴趣。然而,现有 RL 研究普遍让智能体在面对新的任务时只能从零开始学习,难以利用预先获取的先验知识来辅助决策,导致很大的计算开销。

而在监督学习领域,预训练范式已经被验证为有效的获得可迁移先验知识的方式,通过在大规模数据集上进行预训练,网络模型能够快速适应不同的下游任务上。相似的思路同样在 RL 中有所尝试,尤其是近段时间关于 “通才” 智能体 [1, 2] 的研究,让人不禁思考是否在 RL 领域也能诞生如 GPT-3 [3] 那样的通用预训练模型。

然而,预训练在 RL 领域的应用面临着诸多挑战,例如上下游任务之间的显著差异、预训练数据如何高效获取与利用、先验知识如何有效迁移等问题都阻碍了预训练范式在 RL 中的成功应用。同时,过往研究考虑的实验设定和方法存在很大差异,这令研究者很难在现实场景下设计合适的预训练模型。

为了梳理预训练在 RL 领域的发展以及未来可能的发展方向,来自上海交通大学和腾讯的研究者撰文综述,讨论现有 RL 预训练在不同设定下的细分方法和待解决的问题

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

论文地址:https://arxiv.org/pdf/2211.03959.pdf

RL 预训练简介

强化学习(RL)为顺序决策提供了一个通用的数学形式。通过 RL 算法和深度神经网络,在不同领域的各种应用上实现了以数据驱动的方式、优化指定奖励函数学习到的智能体取得了超越人类的表现。然而,虽然 RL 已被证明可以有效地解决指定任务,但样本效率和泛化能力仍然是阻碍 RL 在现实世界应用中的两大障碍。在 RL 研究中,一个标准的范式是让智能体从自己或他人收集的经验中学习,针对单一任务,通过随机初始化来优化神经网络。与之相反,对人类来说,世界先验知识对决策过程有很大的帮助。如果任务与以前看到的任务有关,人类倾向于复用已经学到的知识来快速适应新的任务,而不需要从头开始学习。因此,与人类相比, RL 智能体存在数据效率低下问题,而且容易出现过拟合现象。

然而,机器学习其他领域的最新进展积极倡导利用从大规模预训练中构建的先验知识。通过对广泛的数据进行大规模训练,大型基础模型 (foundation models) 可以快速适应各种下游任务。这种预训练 - 微调范式在计算机视觉和自然语言处理等领域已被证明有效。然而,预训练还没有对 RL 领域产生重大影响。尽管这种方法很有前景,但设计大规模 RL 预训练的原则面临诸多挑战。1)领域和任务的多样性;2)有限的数据源;3)快速适应解决下游任务的难度。这些因素源于 RL 的内在特征,需要研究者加以特别考虑。

预训练对 RL 有很大的潜力,这项研究可以作为对这一方向感兴趣的人的起点。本文中,研究者试图对现有深度强化学习的预训练工作进行系统的回顾。

近年来,深度强化学习预训练经历了几次突破性进展。首先,基于专家示范的预训练使用监督学习来预测专家所采取的行动,已经在 AlphaGo 上得到应用。为了追求更少监督的大规模预训练,无监督 RL 领域发展迅速,它允许智能体在没有奖励信号的情况下从与环境的互动中学习。此外,离线强化学习 (offline RL) 发展迅猛,又促使研究人员进一步考虑如何利用无标签和次优的离线数据进行预训练。最后,基于多任务和多模态数据的离线训练方法进一步为通用的预训练范式铺平了道路。

在线预训练

以往 RL 的成功都是在密集和设计良好的奖励函数下实现的。在诸多领域取得巨大进展的传统 RL 范式,在扩展到大规模预训练时面临两个关键挑战。首先,RL 智能体很容易过拟合,用复杂的任务奖励预训练得到的智能体很难在从未见过的任务上取得很好的性能。此外,设计奖励函数通常十分昂贵,需要大量专家知识,这在实际中无疑是个很大的挑战。

无奖励信号的在线预训练可能会成为学习通用先验知识的可用解决方案,并且是无需人工参与的监督信号。在线预训练旨在在没有人类监督的情况下,通过与环境的交互来获得先验知识。在预训练阶段,智能体被允许与环境进行长时间的交互,但不能获得外在奖励。这种解决方案,也被称为无监督 RL,近年来研究者一直在积极研究。

为了激励智能体在没有任何监督信号的情况下从环境中获取先验知识,一种成熟的方法是为智能体设计内在奖励 (intrinsic reward) ,鼓励智能体通过收集多样的经验或掌握可迁移的技能,相应地设计奖励机制。先前研究已经表明,通过内在奖励和标准 RL 算法进行在线预训练,智能体能够快速适应下游任务。

离线预训练

尽管在线预训练在无需人类监督的情况下能够取得很好的预训练效果,但对于大规模应用来说,在线预训练仍然是有限的。毕竟,在线的交互与在大型和多样化的数据集上进行训练的需求在一定程度上是互斥的。为了解决这个问题,人们往往希望将数据收集和预训练环节脱钩,直接利用从其他智能体或人类收集的历史数据进行预训练。

一个可行的解决方案是离线强化学习。离线强化学习的目的是从离线数据中获得一个奖励最大化的 RL 策略。其所面临的一个基本挑战是分布偏移问题,即训练数据和测试期间看到的数据之间的分布差异。现有的离线强化学习方法关注如何在使用函数近似时解决这一挑战。例如,策略约束方法明确要求学到的策略避免采取数据集中未见的动作,价值正则化方法则通过将价值函数拟合到某种形式的下限,缓解了价值函数的高估问题。然而,离线训练的策略是否能泛化到离线数据集中未见的新环境中,仍然没有得到充分的探索。

或许,我们可以避开 RL 策略的学习,而是利用离线数据学习有利于下游任务的收敛速度或最终性能的先验知识。更有趣的是,如果我们的模型能够在没有人类监督的情况下利用离线数据,它就有可能从海量的数据中获益。本文中,研究者把这种设定称为离线预训练,智能体可以从离线数据中提取重要的信息(例如,良好的表征和行为先验)。

迈向通用智能体

在单一环境和单一模态下的预训练方法主要集中于以上提到的在线预训练和离线预训练设定,而在最近,领域内的研究者对建立一个单一的通用决策模型的兴趣激增(例如,Gato [1] 和 Multi-game DT [2]),使得同一模型能够处理不同环境中不同模态的任务。为了使智能体能够从各种开放式任务中学习并适应这些任务,该研究希望能够利用不同形式的大量先验知识,如视觉感知和语言理解。更为重要地是,如果研究者能成功地在 RL 和其他领域的机器学习之间架起一座桥梁,将以前的成功经验结合起来,或许可以建立一个能够完成各种任务的通用智能体模型。


# 算法  # gpt-3  # https  # gpt  # 离线  # 情况下  # 这一  # 很好  # 很难  # 已被  # 而在  # 仍然是  # 建立一个  # 未见 


相关栏目: 【 Google疑问12 】 【 Facebook疑问10 】 【 网络优化91478 】 【 技术知识72672 】 【 云计算0 】 【 GEO优化84317 】 【 优选文章0 】 【 营销推广36048 】 【 网络运营41350 】 【 案例网站102563 】 【 AI智能45237


相关推荐: Decart Lucy 14B:颠覆AI视频生成领域的革命性模型  豆包AI的发现页面有什么功能_探索热门智能体与话题  美图AI海报设计怎样匹配品牌VI_美图AI海报设计VI匹配与色彩校准【教程】  揭秘面部和谐:打造完美脸型的终极指南  清洁扫地机器人传感器:解决导航和充电难题  智谱清言分析数据怎么用_智谱清言分析数据使用方法详细指南【教程】  2025 YouTube自动化终极指南:利用AI实现高效内容创作和多平台发布  AI学习秘籍:3个高效黑科技,解锁智能学习新时代  AI在软件测试中的应用:提升效率与质量的关键策略  QRCODE.AI深度评测:AI驱动的二维码生成器优缺点分析  DeepSeek 在量化交易策略回测中的实战教程  AI简历泛滥:虚假技能与企业衰落的深度剖析  超频爱好者盛宴:液氮超频Xeon 28核处理器  秀米AI排版如何自动生成模板_秀米AI排版模板生成入口与风格选择【攻略】  AI威胁论:超人工智能ASI时代来临,人类如何应对?  AI视频创作新纪元:CogVideoX Flash模型深度解析  DesignGen: 5个AI模型革新服装设计,快速实现创意  Descript vs. Wisecut:AI视频编辑工具深度测评与最佳选择  夸克AI怎样搜索医疗健康_夸克AI医疗频道与症状自查【技巧】  Depseek能否批量生成部门总结_Depseek多部门总结批量生成步骤【方法】  百度AI助手网页版入口 免安装直接打开入口  ClaudePC端怎么设快捷键_ClaudePC端快捷键设置【方法】  AI在建筑行业的革命:提升效率与优化流程  智行ai抢票如何查看抢票进度_智行ai抢票进度查询与状态解读【实操】  教你用AI将一段旋律扩展成一首完整的曲子  ChatGPT怎么用一键生成活动策划案_ChatGPT策划案生成教程【攻略】  一键改变发型:Gemini AI 助你轻松打造时尚造型  斑马AI怎样调整语音播报速度_斑马AI语速设置与发音风格选择【攻略】  AI图像识别如何减少保险欺诈和加速理赔  汽车“以旧换新”补贴升级:2026年置换最高补1.5万元  AI图像生成偏见:克服与优化,打造更真实的数字形象  批改网AI检测工具怎样设置检测维度_批改网AI检测工具维度勾选与权重调整【技巧】  Excel Copilot:AI驱动的数据分析革命,提升效率秘籍  tofai官方网站入口 tofai在线网页版登录  MetaGPT:AI驱动的软件开发团队,颠覆传统编码模式  小型邮件列表的终极指南:使用AI最大化营销效果  AI卡通视频制作终极指南:轻松打造百万流量  AI心理测试生成工具有哪些_一键生成趣味测评的AI工具推荐  MemeGIF Studio:AI驱动的GIF生成器全面评测与使用指南  ChatGPT 如何助力建筑承包商?三大实用技巧解析  阿里通义app怎么用_阿里通义app使用方法详细指南【教程】  怎么用ai进行用户画像分析 AI消费行为与兴趣标签提炼【详解】  AI复古纱丽照片编辑:用Google Gemini轻松生成时尚照片  Midjourney怎么用一键生成壁纸_Midjourney壁纸生成教程【教程】  百度AI搜索怎样设置搜索偏好_百度AI搜索偏好设置与个性化推荐【技巧】  GravityWrite:AI驱动的内容创作,提升排名和效率  ChatGPT 处理超长 PDF 文件的核心步骤  普通人如何用DeepSeek月入过万?2026最新赚钱路径全解析!  GitHub MCP Server:AI赋能代码管理的未来  稿定AI智能设计怎样自动生成电商Banner_稿定AI智能设计Banner生成流程【步骤】 

 2023-04-09

了解您产品搜索量及市场趋势,制定营销计划

同行竞争及网站分析保障您的广告效果

点击免费数据支持

提交您的需求,1小时内享受我们的专业解答。

南京市珐之弘网络技术有限公司


南京市珐之弘网络技术有限公司

南京市珐之弘网络技术有限公司专注海外推广十年,是谷歌推广.Facebook广告全球合作伙伴,我们精英化的技术团队为企业提供谷歌海外推广+外贸网站建设+网站维护运营+Google SEO优化+社交营销为您提供一站式海外营销服务。

 87067657

 13565296790

 87067657@qq.com

Notice

We and selected third parties use cookies or similar technologies for technical purposes and, with your consent, for other purposes as specified in the cookie policy.
You can consent to the use of such technologies by closing this notice, by interacting with any link or button outside of this notice or by continuing to browse otherwise.