把大象装冰箱总共要几步?英伟达发布ProgPrompt,让语言模型给机器人安排计划


对于机器人来说,任务规划(Task Planning)是一个绕不过去的难题。

想要完成一个真实世界的任务,首先你得知道把大象装冰箱总共要几步

即便是比较简单的扔苹果任务也包含多个子步骤,机器人得先观察苹果的位置,如果没有看到苹果就要持续寻找,然后靠近苹果,把苹果抓起来找到并靠近垃圾桶

如果垃圾桶关着的,还得先把它打开,然后再把苹果扔进去关上垃圾桶

但每个任务的具体实施细节不可能都由人来设计,如何通过一句命令来生成动作序列就成了难题。

命令生成序列?这不正是语言模型的工作么?

过去有研究人员使用大型语言模型(LLMs)根据输入的任务指令对潜在的下一步行动空间进行评分,然后生成行动序列。指令由自然语言进行描述,不包含额外的领域信息。

但这类方法要么需要列举所有可能的下一步行动进行评分,要么生成的文本在形式上没有任何限制,其中可能包含在当前环境下特定机器人不可能采取的行动

最近南加州大学和英伟达联合推出了一个新模型ProgPrompt,同样使用语言模型对输入指令进行任务规划,其中包含了一个程序化的提示结构,使得生成的计划在不同的环境、具有不同能力的机器人、不同的任务中都能发挥作用。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

在保证任务的规范性上,研究人员采用生成python风格代码的形式来提示语言模型哪些动作是可用的、环境中有哪些物体以及哪些程序是可执行的。

比如输入「扔苹果」命令就可以生成如下程序。

ProgPrompt模型在虚拟家庭任务中达到了sota性能,研究人员还将该模型部署在一个用于桌面任务的物理机器人手臂上。

妙用语言模型

想要完成日常家庭任务(everyday household tasks)既需要对世界具有常识性理解,也需要当前环境的情景知识。

为了创建一个「做晚饭」的任务计划,智能体最起码需要知道的常识包括:物体的功能,如炉子和微波炉可以用来加热;行动的逻辑顺序,在添加食物之前必须先预热烤箱;以及物体和行动的任务相关性,例如加热和寻找食材首先是与「晚饭」相关的行动。

但如果没有状态反馈(state feedback),这种推理就无法进行。

智能体需要知道当前环境中哪里有食物,例如冰箱里是否有鱼,或者冰箱里是否有鸡肉。

在大型语料库上训练的自回归大型语言模型可以在输入提示的条件下生成文本序列,具有显著的多任务泛化能力。

比如输入「做晚饭」,语言模型可以生成后续序列,如打开冰箱、拿起鸡肉、拿起苏打水、关闭冰箱、打开电灯开关等。

生成的文本序列需要映射到智能体的行动空间中,比如生成的指令是「伸手拿起一罐泡菜」,对应的可执行动作可能就是「拿起罐子」,然后模型会计算出一个行动的概率评分值。

但缺少环境反馈的情况下,如果冰箱里没有鸡肉,却仍然选择「拿起鸡肉」行动,就会导致任务失败,因为「做晚饭」并没有包含任何关于世界状态的信息。

ProgPrompt模型在任务规划中巧妙地利用了编程语言结构,因为现有的大规模语言模型通常都在编程教程和代码文档的语料中进行过预训练

ProgPrompt为语言模型提供了一个Pythonic的程序头部作为提示,导入了可用的动作空间、预期参数和环境中可用的物体。

然后定义了诸如make_dinner, throw_away_banana等函数,其主体是对物体进行操作的动作序列,然后通过断言计划的先决条件,例如在试图打开冰箱之前靠近冰箱,以及用恢复行动来应对断言失败的情况,以此纳入环境的状态反馈

最重要的是,ProgPrompt程序中还包括了自然语言编写的注释,用以解释行动的目标,从而提高了生成的计划程序执行任务的成功率。

ProgPrompt

有了完整的想法,ProgPrompt的整体工作流程就清晰了,主要包括三部分Pythonic函数构建构造编程语言提示任务计划的生成和执行

1、将机器人计划表述为Pythonic函数

计划函数包括对动作原语(action primitive)的API调用,总结动作并添加注释,以及跟踪执行的断言。

每个动作原语需要一个物体作为参数,比如「把三文鱼放进微波炉」任务中,包括对find(salmon)的调用,其中find就是一个动作原语。

利用代码中的注释来为后续的动作序列提供自然语言的总结,注释有助于将高层次的任务分解成合乎逻辑的子任务,即「抓取三文鱼」和「把三文鱼放进微波炉」。

注释也可以让语言模型了解当前的目标,减少不连贯、不一致或重复输出的可能性,类似于思维链(chain of thought)生成中间结果。

断言(assertions)提供了一个环境反馈机制,以确保前提条件成立,并在不成立时实现错误恢复,比如在抓取行动之前,计划断言智能体已经接近了三文鱼,否则智能体需要先执行find行动。

2、构造编程语言prompt

prompt需要向语言模型提供关于环境和主要行动的信息,包括观察、行动原语、例子,并生成了一个Pythonic提示,供语言模型补全。

然后,语言模型将预测为一个可执行的函数,即microwave_salmon()

在微波炉三文鱼这个任务中,LLM可以生成的且合理的第一步是取出三文鱼,但负责执行计划的智能体可能没有这样一个动作原语。

为了让语言模型了解智能体的动作原语,将其在prompt中通过import语句导入,也就将输出限制为在当前环境下可用的函数上。

要改变智能体的行为空间,只需要更新import的函数列表即可。

变量objects以一个字符串列表的形式提供了环境中的所有可用物体

prompt还包括一些完全可执行的程序计划作为示例,每个示例任务都演示了如何使用给定环境中的可用动作和目标来完成一个给定的任务,如throw_away_lime

3、任务计划的生成和执行

给定任务之后,计划完全是由语言模型根据ProgPrompt提示推断出来的,然后可以将生成的计划在虚拟智能体或物理机器人系统上执行,需要用到一个解释器,针对环境执行每个行动命令。

在执行过程中,断言检查以闭环的方式进行,并根据当前环境状态提供反馈。

在实验部分,研究人员在虚拟家庭(VH)*平台评估了该方法。

VH的状态包括一组物体和相应的属性,比如三文鱼在微波炉内部(in),或者靠近(agent_close_to)等。

行动空间包括抓取(grab)、放入(putin)、放回(putback)、行走(walk),寻找(find)、打开(open)、关闭(close)等。

最终实验了3个VH环境,每个环境包括115种不同的物体,研究人员创建了一个包含70个家务任务的数据集,抽象程度很高,命令都是「微波三文鱼」这类的,并为之创建一个ground-truth的行动序列。

在虚拟家庭上对生成的程序进行评估后,评估指标包括成功率(SR),目标条件召回(GCR)和可执行性(Exec),从结果上可以看到ProgPrompt明显优于基线和LangPrompt,表格中还展示了每个特征是如何提升性能的。

研究人员同样在真实世界进行了实验,使用一个带有平行爪子的Franka-Emika熊猫机器人,并假设可以获得一个拾取和放置(pick-and-place)的策略。

该策略将目标物体和目标容器的两个点云作为输入,并执行拾取和放置操作,将物体放在容器上或里面。

系统实现引入一个开放词汇的物体检测模型ViLD来识别和分割场景中的物体,并构建prompt中的可用物体列表。

与在虚拟环境中不同的是,这里物体列表是每个计划函数的局部变量,这样可以更灵活地适应新对象。

语言模型输出的计划中包含形式为grab和putin等函数调用。

由于现实世界的不确定性,实验设置中没有实施基于断言的闭环选项

可以看到,机器人在分类任务中,能够识别出香蕉和草莓是水果,并生成计划步骤,将它们放在盘子里,而将瓶子放在盒子里。


# 英伟达  # Python  # 局部变量  # 字符串  # 对象  # prompt  # 三文鱼  # 拿起  # 可执行  # 自然语言  # 放在  # 闭环  # 不可能  # 冰箱里  # 编程语言  # 这类 


相关栏目: 【 Google疑问12 】 【 Facebook疑问10 】 【 网络优化91478 】 【 技术知识72672 】 【 云计算0 】 【 GEO优化84317 】 【 优选文章0 】 【 营销推广36048 】 【 网络运营41350 】 【 案例网站102563 】 【 AI智能45237


相关推荐: AI时代软件工程师如何破局?未来必备技能全解析  AI营销赋能本地服务:从Facebook广告到客户终身价值提升策略  告别噪音:使用Adobe Podcast提升录音质量  如何配置 DeepSeek 以支持企业级私有化部署  汽车“以旧换新”补贴升级:2026年置换最高补1.5万元  利用 ChatGPT 设计高效的个人健身与饮食计划  Character AI终极指南:构建你的人工智能伴侣,探索无限可能  Excel Copilot:AI驱动的数据分析革命,提升效率秘籍  AI伴侣:连接还是孤独?真实对话揭秘AI伦理困境  Midjourney怎样用参数调色彩饱和度_Midjourney饱和度调整【方法】  美图秀秀AI抠图如何换背景_美图秀秀AI背景替换与贴纸添加【攻略】  Spin Rewriter AI:终极内容创作与SEO优化指南  清洁扫地机器人传感器:解决导航和充电难题  GravityWrite:AI驱动的内容创作,提升排名和效率  百度搜索ai助手怎么关闭 百度搜索ai对话屏蔽方法  CanvaAI抠图如何换背景_CanvaAI背景替换与设计模板结合【攻略】  Gemini 辅助进行博物馆数字化藏品分类建议  QuickBooks Desktop 到 Online 迁移指南:轻松转移您的公司数据  AI同伴的未来:超越工具,迈向情感连接与个人成长  TopMedi AI:AI语音克隆和文本转语音终极指南  普通人如何用DeepSeek月入过万?2026最新赚钱路径全解析!  Hugging Face Transformers:文本分类的完整指南  AI vs. 人工书籍教练:哪个更适合你?终极指南  Fiverr网站审计终极指南:免费工具、SEO技巧和实战案例  播客剪辑软件选择指南:新手到专业,总有一款适合你  DeepSeek 在量化交易策略回测中的实战教程  eBookWriter AI:无需写作也能创作专业电子书  怎么使用网页版deepseek【教程】  AMD Ryzen 5 2600: 游戏玩家高性价比之选  New You KIN Skin Analyzer:焕发肌肤新生的终极指南  LeetCode算法:最长公共前缀问题全面解析  AI员工工具详解:添加与移除指南,提升效率  AI简历优化指南:如何让你的简历轻松通过ATS筛选系统  2025年最佳AI流程图工具:效率提升秘籍  唐库AI拆书工具怎么查看拆书进度_唐库AI拆书工具进度查看与异常排查【方法】  3步教你用AI帮你把菜谱转换成详细的烹饪步骤视频脚本  终极游戏工作站:帝王蝎椅沉浸式体验评测  如何通过 DeepSeek 优化分布式存储系统架构  百度AI搜索怎样设置搜索偏好_百度AI搜索偏好设置与个性化推荐【技巧】  Sora AI:颠覆视频创作?OpenAI最新文生视频模型深度解析  批改网AI检测工具怎样开启实时检测_批改网AI检测工具实时检测开启与延迟设置【指南】  千问如何生成预算执行总结_千问预算数据与执行对比分析【方法】  文心一言辅助进行中文播客脚本起草教程  在线图像分割:可信模糊聚类算法详解与应用  Agentic Testing入门:使用Playwright和Claude Code构建自动化框架  免费高效获客!ChatGPT助你快速生成潜在客户名单  Runway Gen-2怎么用 Runway视频生成AI使用教程  如何在 Google Sheets 中利用 Gemini 自动填充数据  kimi如何导出对话_导出对话内容方法【攻略】  Azure AI 文本分类指南:自定义模型,提高文本分析精度 

 2023-04-14

了解您产品搜索量及市场趋势,制定营销计划

同行竞争及网站分析保障您的广告效果

点击免费数据支持

提交您的需求,1小时内享受我们的专业解答。

南京市珐之弘网络技术有限公司


南京市珐之弘网络技术有限公司

南京市珐之弘网络技术有限公司专注海外推广十年,是谷歌推广.Facebook广告全球合作伙伴,我们精英化的技术团队为企业提供谷歌海外推广+外贸网站建设+网站维护运营+Google SEO优化+社交营销为您提供一站式海外营销服务。

 87067657

 13565296790

 87067657@qq.com

Notice

We and selected third parties use cookies or similar technologies for technical purposes and, with your consent, for other purposes as specified in the cookie policy.
You can consent to the use of such technologies by closing this notice, by interacting with any link or button outside of this notice or by continuing to browse otherwise.