上海交通大学gair实验室研发pc agent:让ai帮你完成深夜pp
t制作
☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜
深夜需要准备第二天论文分享的PPT?有了上海交通大学GAIR实验室研发的PC Agent,你只需告诉它要点和保存位置,第二天就能看到一份制作精良的PPT。这项研究由三位研究者完成,共同第一作者为上海交通大学ACM班三年级本科生何彦衡和金嘉禾,指导老师为刘鹏飞副教授。GAIR实验室主要研究方向包括大模型复杂推理、数据工程、多模态大模型和智能体。实验室主页:https://www./link/543817ed62fa34e371bb229d4f7b603f
PC Agent通过认知迁移方法,高效收集人类认知轨迹进行训练(而非API调用),实现了像人类一样操作电脑:阅读屏幕、控制键盘鼠标,完成数十步跨软件的复杂任务。这标志着AI真正开始为人类减负!
PC Agent能轻松完成大量重复性工作,例如为多位图灵奖得主制作海报:
它还能像Claude 3.5 Sonnet一样,完成“AI调用AI”的任务,例如自行创建网站:
论文信息:
挑战与突破:深度电脑理解与精准视觉定位
当前智能体电脑使用能力远逊于人类,主要挑战在于深度电脑理解认知和精准视觉定位能力。
1. 视觉定位:GUI交互的基础是精准定位屏幕元素(如按钮)。现有模型,包括GPT-4o,缺乏此能力。
2. 认知理解:模型缺乏对电脑使用的认知理解,包括细粒度的电脑操作知识(例如,在PowerPoint中添加标题需要先点击文本框再输入)和智能体导向的训练(长程任务中的上下文关注、决策和策略调整)。
认知迁移:AI从对话窗口到数字世界的关键
团队提出人类认知迁移方法,包括高效采集人机交互数据的轻量级工具PC Tracker,以及从原始交互数据重建人类认知的完整流水线。PC Tracker开源,旨在加速社区研究。
该方法首先采集人类电脑操作轨迹,然后用大模型重建人类认知,最终得到包含人类认知的交互轨迹(Cognitive trajectory)。通过模仿学习,AI不仅模仿动作,还学习背后的认知理解。
仅在133条认知轨迹上训练,PC Agent就能执行50步复杂任务,展现了方法的高效性。
PC Tracker:高效采集人机交互数据
PC Tracker轻量级运行,仅在用户动作发生时记录,不会影响用户体验,并支持大规模数据采集。它具备以下特性:
认知轨迹重建:动作语义重建和思考过程重建
原始点击动作缺乏语义信息,需要重建。大模型通过上下文信息和动作语义,重建每步动作背后的思考过程。
PC Agent:基于开源模型的多智能体协作
PC Agent采用多智能体架构:规划智能体负责决策,视觉定位智能体负责执行点击动作。它利用Molmo模型进行视觉定位,并通过自我验证提高精度。
未来展望
团队未来将关注大规模泛化实验、长程规划与鲁棒性、无任务数据的利用、动作空间优化和复杂任务的评估。
# powerpoint
# 帮你
# 只需
# 未来
# 深夜
# 开源
# 嘉禾
# 第二天
# 数据采集
# 就能
# 长程
# gpt
# git
# https
# nlp
# github
# while
# 架构
# api调用
# claude
# ai
# qq
# 电脑
相关栏目:
【
Google疑问12 】
【
Facebook疑问10 】
【
网络优化91478 】
【
技术知识72672 】
【
云计算0 】
【
GEO优化84317 】
【
优选文章0 】
【
营销推广36048 】
【
网络运营41350 】
【
案例网站102563 】
【
AI智能45237 】
相关推荐:
ChatGPT助力Instagram Reels脚本创作:提升内容质量
今日头条AI怎样推荐抢票工具_今日头条AI抢票工具推荐算法与筛选【技巧】
AI营销赋能本地服务:从Facebook广告到客户终身价值提升策略
智行ai抢票如何绑定微信通知_智行ai抢票微信提醒绑定与推送设置【指南】
AI伴侣:连接还是孤独?真实对话揭秘AI伦理困境
解读诗歌中的女性视角:Shelley Puhak 的作品解析
5分钟教你用AI给黑白老照片上色,让回忆变得鲜活
DeepSeek写小说怎么用_DeepSeek写小说使用方法详细指南【教程】
雷小兔ai智能写作如何优化语句_雷小兔ai智能写作语句润色技巧【攻略】
如何用AI帮你分析用户评论?3步挖掘用户真实需求
易企秀AI排版如何生成H5页面_易企秀AI排版H5制作入口与组件添加【方法】
FundView贷款管理:贷款汇总生成器提升效率
文心一言辅助进行中文播客脚本起草教程
AI动画制作终极指南:让你的图片和人物栩栩如生
AI代码助手的崛起:软件工程的未来展望与实用指南
AI驱动营销:如何利用人工智能构建高效营销漏斗
通义千问怎样写文案_通义千问文案写作教程【指南】
如何在 Google Sheets 中利用 Gemini 自动填充数据
AI驱动的潜在客户挖掘:15分钟搭建营销机构并获利
百度输入法智能预测怎么关 百度输入法ai联想词关闭
Talvix AI:AI驱动的招聘平台,提升招聘效率和质量
Mootion AI视频生成器:一键创作动画故事!
Jasper AI如何做SEO优化 Jasper AI结合SurferSEO用法【教程】
百度AI搜索怎么用语音提问_百度AI搜索语音输入与识别优化【指南】
Xcode 26 Beta 新功能:集成 ChatGPT 代码助手全面测评
AI驱动的医学影像器官分割与3D可视化:临床应用的未来
探索心灵的音乐之旅:Kanwar Garewal的《Ishq Bulleh Nu》
精选AI销售工具:提升业绩的终极指南(2025年最新)
人脸识别的伦理困境:Massive Attack的演出引发的思考
AGI未来展望:DeepMind CEO的深度解读与行业洞察
AI 编码助手:提升效率的 5 大工具及应用详解
扣子AI怎样设置多轮对话逻辑_扣子AI逻辑树搭建与分支设计【教程】
TechInternPath.ai:AI驱动的实习之路,助你梦想成真
历史影像解密:唇语专家如何还原一战士兵对话?
智谱AI绘画怎么用_智谱AI绘画使用方法详细指南【教程】
Weavernote:AI驱动的知识管理与高效笔记应用
Google AI 在教育领域个性化学习路径的构建
播客数据深度解析:揭秘全球听众分布和增长策略
Base44 AI应用构建器深度评测:Wix 8000万美元收购的秘密
Gacha Club反应视频解析:探索热门角色和独特剧情
即梦ai怎么生成游戏角色原画_即梦ai游戏角色生成风格与装备细节【教程】
利用 Gemini 1.5 Pro 进行超长视频摘要提取
AI自动化工作流:Zapier提升效率,优化工作流程
打破传统,拥抱幸福:公主如何找到真我?
找不到百度AI助手入口 最新官网登录入口
微信AI数字人怎样创建_微信AI数字人创建流程与形象定制【教程】
AI音频增强和视频背景替换终极指南
ROBLOX Brookhaven:惊悚友谊与校园秘密(2025版)
DeepSeek是免费使用的吗 DeepSeek收费模式与Pro版本功能详解
Runway Gen-2怎么用 Runway视频生成AI使用教程
2024-12-24
南京市珐之弘网络技术有限公司专注海外推广十年,是谷歌推广.Facebook广告全球合作伙伴,我们精英化的技术团队为企业提供谷歌海外推广+外贸网站建设+网站维护运营+Google SEO优化+社交营销为您提供一站式海外营销服务。