突破数据瓶颈!交大研发电脑智能体,让 AI 替你熬夜做 PPT


上海交通大学gair实验室研发pc agent:让ai帮你完成深夜ppt制作

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

深夜需要准备第二天论文分享的PPT?有了上海交通大学GAIR实验室研发的PC Agent,你只需告诉它要点和保存位置,第二天就能看到一份制作精良的PPT。这项研究由三位研究者完成,共同第一作者为上海交通大学ACM班三年级本科生何彦衡和金嘉禾,指导老师为刘鹏飞副教授。GAIR实验室主要研究方向包括大模型复杂推理、数据工程、多模态大模型和智能体。实验室主页:https://www./link/543817ed62fa34e371bb229d4f7b603f

PC Agent通过认知迁移方法,高效收集人类认知轨迹进行训练(而非API调用),实现了像人类一样操作电脑:阅读屏幕、控制键盘鼠标,完成数十步跨软件的复杂任务。这标志着AI真正开始为人类减负!

PC Agent能轻松完成大量重复性工作,例如为多位图灵奖得主制作海报:

它还能像Claude 3.5 Sonnet一样,完成“AI调用AI”的任务,例如自行创建网站:

论文信息:

  • 论文标题:PC Agent: While You Sleep, AI Works - A Cognitive Journey into Digital World
  • 论文地址:https://www./link/190b12368f262b0aa584cd9101ecc07c
  • 代码地址:https://www./link/a4e56c27a3e2a2fc8ccd7d91a2945f90

挑战与突破:深度电脑理解与精准视觉定位

当前智能体电脑使用能力远逊于人类,主要挑战在于深度电脑理解认知和精准视觉定位能力。

1. 视觉定位:GUI交互的基础是精准定位屏幕元素(如按钮)。现有模型,包括GPT-4o,缺乏此能力。

2. 认知理解:模型缺乏对电脑使用的认知理解,包括细粒度的电脑操作知识(例如,在PowerPoint中添加标题需要先点击文本框再输入)和智能体导向的训练(长程任务中的上下文关注、决策和策略调整)。

认知迁移:AI从对话窗口到数字世界的关键

团队提出人类认知迁移方法,包括高效采集人机交互数据的轻量级工具PC Tracker,以及从原始交互数据重建人类认知的完整流水线。PC Tracker开源,旨在加速社区研究。

该方法首先采集人类电脑操作轨迹,然后用大模型重建人类认知,最终得到包含人类认知的交互轨迹(Cognitive trajectory)。通过模仿学习,AI不仅模仿动作,还学习背后的认知理解。

仅在133条认知轨迹上训练,PC Agent就能执行50步复杂任务,展现了方法的高效性。

PC Tracker:高效采集人机交互数据

PC Tracker轻量级运行,仅在用户动作发生时记录,不会影响用户体验,并支持大规模数据采集。它具备以下特性:

  • 轻量级数据采集
  • 无损用户体验
  • 大规模数据采集
  • 统一动作空间
  • 双采集模式(任务导向和无任务导向)
  • 数据透明与隐私保护

认知轨迹重建:动作语义重建和思考过程重建

原始点击动作缺乏语义信息,需要重建。大模型通过上下文信息和动作语义,重建每步动作背后的思考过程。

PC Agent:基于开源模型的多智能体协作

PC Agent采用多智能体架构:规划智能体负责决策,视觉定位智能体负责执行点击动作。它利用Molmo模型进行视觉定位,并通过自我验证提高精度。

未来展望

团队未来将关注大规模泛化实验、长程规划与鲁棒性、无任务数据的利用、动作空间优化和复杂任务的评估。


# powerpoint  # 帮你  # 只需  # 未来  # 深夜  # 开源  # 嘉禾  # 第二天  # 数据采集  # 就能  # 长程  # gpt  # git  # https  # nlp  # github  # while  # 架构  # api调用  # claude  # ai  # qq  # 电脑 


相关栏目: 【 Google疑问12 】 【 Facebook疑问10 】 【 网络优化91478 】 【 技术知识72672 】 【 云计算0 】 【 GEO优化84317 】 【 优选文章0 】 【 营销推广36048 】 【 网络运营41350 】 【 案例网站102563 】 【 AI智能45237


相关推荐: ChatGPT助力Instagram Reels脚本创作:提升内容质量  今日头条AI怎样推荐抢票工具_今日头条AI抢票工具推荐算法与筛选【技巧】  AI营销赋能本地服务:从Facebook广告到客户终身价值提升策略  智行ai抢票如何绑定微信通知_智行ai抢票微信提醒绑定与推送设置【指南】  AI伴侣:连接还是孤独?真实对话揭秘AI伦理困境  解读诗歌中的女性视角:Shelley Puhak 的作品解析  5分钟教你用AI给黑白老照片上色,让回忆变得鲜活  DeepSeek写小说怎么用_DeepSeek写小说使用方法详细指南【教程】  雷小兔ai智能写作如何优化语句_雷小兔ai智能写作语句润色技巧【攻略】  如何用AI帮你分析用户评论?3步挖掘用户真实需求  易企秀AI排版如何生成H5页面_易企秀AI排版H5制作入口与组件添加【方法】  FundView贷款管理:贷款汇总生成器提升效率  文心一言辅助进行中文播客脚本起草教程  AI动画制作终极指南:让你的图片和人物栩栩如生  AI代码助手的崛起:软件工程的未来展望与实用指南  AI驱动营销:如何利用人工智能构建高效营销漏斗  通义千问怎样写文案_通义千问文案写作教程【指南】  如何在 Google Sheets 中利用 Gemini 自动填充数据  AI驱动的潜在客户挖掘:15分钟搭建营销机构并获利  百度输入法智能预测怎么关 百度输入法ai联想词关闭  Talvix AI:AI驱动的招聘平台,提升招聘效率和质量  Mootion AI视频生成器:一键创作动画故事!  Jasper AI如何做SEO优化 Jasper AI结合SurferSEO用法【教程】  百度AI搜索怎么用语音提问_百度AI搜索语音输入与识别优化【指南】  Xcode 26 Beta 新功能:集成 ChatGPT 代码助手全面测评  AI驱动的医学影像器官分割与3D可视化:临床应用的未来  探索心灵的音乐之旅:Kanwar Garewal的《Ishq Bulleh Nu》  精选AI销售工具:提升业绩的终极指南(2025年最新)  人脸识别的伦理困境:Massive Attack的演出引发的思考  AGI未来展望:DeepMind CEO的深度解读与行业洞察  AI 编码助手:提升效率的 5 大工具及应用详解  扣子AI怎样设置多轮对话逻辑_扣子AI逻辑树搭建与分支设计【教程】  TechInternPath.ai:AI驱动的实习之路,助你梦想成真  历史影像解密:唇语专家如何还原一战士兵对话?  智谱AI绘画怎么用_智谱AI绘画使用方法详细指南【教程】  Weavernote:AI驱动的知识管理与高效笔记应用  Google AI 在教育领域个性化学习路径的构建  播客数据深度解析:揭秘全球听众分布和增长策略  Base44 AI应用构建器深度评测:Wix 8000万美元收购的秘密  Gacha Club反应视频解析:探索热门角色和独特剧情  即梦ai怎么生成游戏角色原画_即梦ai游戏角色生成风格与装备细节【教程】  利用 Gemini 1.5 Pro 进行超长视频摘要提取  AI自动化工作流:Zapier提升效率,优化工作流程  打破传统,拥抱幸福:公主如何找到真我?  找不到百度AI助手入口 最新官网登录入口  微信AI数字人怎样创建_微信AI数字人创建流程与形象定制【教程】  AI音频增强和视频背景替换终极指南  ROBLOX Brookhaven:惊悚友谊与校园秘密(2025版)  DeepSeek是免费使用的吗 DeepSeek收费模式与Pro版本功能详解  Runway Gen-2怎么用 Runway视频生成AI使用教程 

 2024-12-24

了解您产品搜索量及市场趋势,制定营销计划

同行竞争及网站分析保障您的广告效果

点击免费数据支持

提交您的需求,1小时内享受我们的专业解答。

南京市珐之弘网络技术有限公司


南京市珐之弘网络技术有限公司

南京市珐之弘网络技术有限公司专注海外推广十年,是谷歌推广.Facebook广告全球合作伙伴,我们精英化的技术团队为企业提供谷歌海外推广+外贸网站建设+网站维护运营+Google SEO优化+社交营销为您提供一站式海外营销服务。

 87067657

 13565296790

 87067657@qq.com

Notice

We and selected third parties use cookies or similar technologies for technical purposes and, with your consent, for other purposes as specified in the cookie policy.
You can consent to the use of such technologies by closing this notice, by interacting with any link or button outside of this notice or by continuing to browse otherwise.