谷歌AI拿下IMO奥数银牌,数学推理模型AlphaProof面世,强化学习 is so back


对于 ai 来说,奥数不再是问题了。

本周四,谷歌 DeepMind 的人工智能完成了一项壮举:用 AI 做出了今年国际数学奥林匹克竞赛 IMO 的真题,并且距拿金牌仅一步之遥。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

上周刚刚结束的 IMO 竞赛共有六道赛题,涉及代数、组合学、几何和数论。谷歌提出的混合 AI 系统做对了四道,获得 28 分,达到了银牌水平。

本月初,UCLA 终身教授陶哲轩刚刚宣传了百万美元奖金的 AI 数学奥林匹克竞赛(AIMO 进步奖),没想到 7 月还没过,AI 的做题水平就进步到了这种水平。

IMO 上同步做题,做对了最难题

IMO 是历史最悠久、规模最大、最负盛名的青年数学家竞赛,自 1959 年以来每年举办一次。近来,IMO 竞赛也被广泛认为是机器学习领域的一项重大挑战,成为衡量人工智能系统高级数学推理能力的理想基准。

在今年的 IMO 竞赛上,由 DeepMind 团队研发的 AlphaProof 和 AlphaGeometry 2 共同实现了里程碑式的突破。

其中,AlphaProof 是一种用于形式化数学推理的强化学习系统,而 AlphaGeometry 2 是 DeepMind 几何求解系统 AlphaGeometry 的改进版本。

这一突破表明具有先进数学推理能力的通用人工智能 (AGI) 有潜力开启科学技术新领域。

那么,DeepMind 的 AI 系统是如何参加 IMO 竞赛的?

简单来说,首先这些数学问题被手动翻译成形式化的数学语言,以便 AI 系统理解。在正式比赛中,人类参赛选手分两节(两天)提交答案,每节限时 4.5 小时。AlphaProof+AlphaGeometry 2 组合成的 AI 系统在几分钟内就解决了一个问题,但花了三天时间来解决其他问题。虽然如果严格按照规则来说的话,DeepMind 的系统超时了。有人推测,这里面可能涉及大量的暴力破解。

谷歌表示,AlphaProof 通过确定答案并证明其正确性解决了两道代数问题和一道数论问题。其中包括本次竞赛中最难的问题,在今年的 IMO 上只有五名参赛者解决了。而 AlphaGeometry 2 证明了一道几何问题。

AI 给出的解:https://storage.googleapis.com/deepmind-media/DeepMind.com/Blog/imo-2025-solutions/index.html

IMO 金牌得主、菲尔兹奖得主 Timothy Gowers 和两届 IMO 金牌得主、IMO 2025 问题选择委员会主席 Joseph Myers 博士根据 IMO 评分规则,对该组合系统给出的解决方案进行了评分。

六个问题中的每一个问题满分 7 分,总分最高 42 分。DeepMind 的系统最终得分为 28 分,意味着解决的 4 个问题都获得了满分——相当于银牌类别的最高分。今年的金牌门槛为 29 分,正式比赛的 609 名选手中有 58 人获得了金牌。

该图显示了谷歌 DeepMind 的人工智能系统在 IMO 2025 上相对于人类竞争对手的表现。在总分为 42 分的情况下,该系统获得了 28 分,达到了与比赛银牌获得者相同的水平。另外,今年 29 分是能拿金牌的。

AlphaProof:一种形式化推理方法


在谷歌使用的混合 AI 系统中,AlphaProof 是一个以形式语言 Lean 来证明数学陈述的自训练系统。它结合了预训练语言模型与 AlphaZero 强化学习算法。

其中,形式语言为形式化地验证数学推理证明的正确性,提供了重要优势。在此之前,这在机器学习中的使用一直受限,因为人工编写数据数量非常有限。

相比之下,基于自然语言的方法尽管可以访问更多量级的数据,但会产生看似合理而不正确的中间推理步骤与解法。

谷歌 DeepMind 通过微调 Gemini 模型自动将自然语言问题陈述翻译为形式陈述,在这两个互补领域之间建立了一座桥梁,从而创建了一个包含不同难度形式问题的大型库。

给到数学问题,AlphaProof 会生成候选解题方案,然后通过搜索 Lean 中可能的证明步骤来证明它们。找到并验证的每个证明方案,都用来强化 AlphaProof 的语言模型,增强其解决后续更具挑战性问题的能力。

为训练 AlphaProof,谷歌 DeepMind 在 IMO 比赛前几周内证明或反证明了涵盖广泛难度与主题的数百万个数学问题。比赛期间还应用了训练 loop,以强化自生成竞赛题变体的证明,直到找到完整的解决方案。

AlphaProof 强化学习训练 loop 过程信息图:约一百万个非形式化数学问题被形式化网络翻译成形式化数学语言。然后,求解器网络搜索问题的证明或反证,通过 AlphaZero 算法逐步训练自己解决更具挑战性的问题。

更具竞争力的 AlphaGeometry 2

AlphaGeometry 2 是今年登上《自然》杂志的数学 AI AlphaGeometry 的重大改进版本。它是一个神经 - 符号混合系统,其中的语言模型基于 Gemini,并在比其前身多一个数量级的合成数据上从头开始训练。这有助于该模型解决更具挑战性的几何问题,包括有关物体运动以及角度、比例或距离方程的问题。

AlphaGeometry 2 采用的符号引擎比上一代产品快两个数量级。当遇到新问题时,新颖的知识共享机制可实现不同搜索树的高级组合,以解决更复杂的问题。

在今年的比赛之前,AlphaGeometry 2 可以解决过去 25 年中所有 IMO 几何历史问题的 83%,而其前身的解决率仅为 53%。在 IMO 2025 中,AlphaGeometry 2 在收到问题 4 的形式化后 19 秒内就解决了它。

问题 4 的示例,要求证明∠KIL 与∠XPY 的和等于 180°。AlphaGeometry 2 提议在直线 BI 上构造点 E,使得∠AEB = 90°。点 E 有助于赋予线段 AB 中点 L 以意义,从而创建许多对相似三角形,如 ABE ~ YBI 和 ALE ~ IPC,以证明结论。

谷歌 DeepMind 还报告说,作为 IMO 工作的一部分,研究人员还试验了一种基于 Gemini 和一种最新的自然语言推理系统,希望实现高级的问题解决能力。该系统不需要将问题翻译成正式语言,并且可以与其他 AI 系统相结合。在今年的 IMO 赛题的测试中「显示出了巨大的潜力」。

谷歌正在继续探索推进数学推理的 AI 方法,并计划很快发布有关 AlphaProof 的更多技术细节。

我们对未来充满期待,数学家们将使用 AI 工具探索假设,尝试大胆的新方法来解决长期存在的问题,并快速完成耗时的证明元素——而像 Gemini 这样的 AI 系统将在数学和更广泛的推理方面变得更加强大。

研究团队

谷歌表示,新研究得到了国际数学奥林匹克组织的支持,此外:

AlphaProof 的开发由 Thomas Hubert、Rishi Mehta 和 Laurent Sartran 领导;主要贡献者包括 Hussain Masoom、Aja Huang、Miklós Z. Horváth、Tom Zahavy、Vivek Veeriah、Eric Wieser、Jessica Yung、Lei Yu、Yannick Schroecker、Julian Schrittwieser、Ottavia Bertolli、Borja Ibarz、Edward Lockhart、Edward Hughes、Mark Rowland 和 Grace Margand。

其中,Aja Huang、Julian Schrittwieser、Yannick Schroecker 等成员也是 8 年前(2016 年)AlphaGo 论文的核心成员。8 年前,他们基于强化学习打造的 AlphaGo 声名大噪。8 年后,强化学习在 AlphaProof 中再次大放异彩。有人在朋友圈感叹说:RL is so back!

AlphaGeometry 2 和自然语言推理工作由 Thang Luong 领导。AlphaGeometry 2 的开发由 Trieu Trinh 和 Yuri Chervonyi 领导,Mirek Olšák、Xiaomeng Yang、Hoang Nguyen、Junehyuk Jung、Dawsen Hwang 和 Marcelo Menegali 做出了重要贡献。

此外,David Silver、Quoc Le、哈萨比斯和 Pushmeet Kohli 负责协调和管理整个项目。

参考内容:

https://deepmind.google/discover/blog/ai-solves-imo-problems-at-silver-medal-level/


# gemini  # th  # 算法  # 人工智能  # https  # agi  # 自然语言  # 奥林匹克  # 更具  # 出了  # 解决了  # 在今年  # 翻译成  # 达到了  # 获得了  # 做题 


相关栏目: 【 Google疑问12 】 【 Facebook疑问10 】 【 网络优化91478 】 【 技术知识72672 】 【 云计算0 】 【 GEO优化84317 】 【 优选文章0 】 【 营销推广36048 】 【 网络运营41350 】 【 案例网站102563 】 【 AI智能45237


相关推荐: SEO必备工具:网站分析与优化终极指南  MediCa AI:AI赋能的智能医疗保健平台全面解析  CallidusAI:提升合同起草效率的智能Word插件指南  旅游营销AI:ChatGPT邮件营销策略,提升旅游业务转化率  唐库AI拆书工具怎么查看拆书进度_唐库AI拆书工具进度查看与异常排查【方法】  ChatGPT怎样用提示词设上下文_ChatGPT上下文设置技巧【方法】  揭秘:发电机咒语的音频魔力与音乐的力量  图像分割技术详解:定义、类型、技术与应用  百度输入法智能预测怎么关 百度输入法ai联想词关闭  打破平庸:激发你的内在动力,重塑卓越人生  Feelin聊天网页版地址 Feelin AI官方网站首页  探索孟加拉音乐魅力:高尔德普林特莎丽,节日欢歌  AI数据分析报告生成工具有哪些_一键生成可视化报告的AI工具推荐  CodeRabbit CLI: AI 代码审查工具,提升编码效率与代码质量  智谱AI创意设计怎么用_智谱AI创意设计使用方法详细指南【教程】  找不到百度AI助手入口 最新官网登录入口  唇语解读的界限:名人的隐私与公众的好奇心  AI写作鱼怎么一键生成论文大纲_AI写作鱼大纲生成与逻辑梳理【技巧】  实测效率提升超35%!科大讯飞星火AIPC开启AI办公新纪元  AI聊天机器人引发伦理思考:泰国老人在Facebook上遭遇情感欺骗悲剧  Excel AI:5大免费AI功能提升数据分析效率  Mermaid Playground: AI驱动的图表秒速创建指南  教你用AI进行角色扮演对话,练习你的沟通和谈判技巧  动态规划解题:攀登楼梯的独特方法与技巧  豆包AI怎么做数据分析 豆包AI数据处理入门教程  京东旅行AI能否抢返程票_京东AI返程票预约与自动抢购【技巧】  如何通过 DeepSeek 进行深度神经网络超参数搜索  百度AI助手官方入口 文心一言网页版登录入口  锂提取AI工具:地热数据分析与机器学习建模深度解析  AI 和 Plagiarism Checker:SEO 内容创作的终极指南  TechInternPath.ai:AI驱动的实习之路,助你梦想成真  去哪旅行ai抢票助手怎样添加备选车次_去哪旅行ai抢票助手备选车次设置与切换【攻略】  美图秀秀AI抠图如何修复抠图误差_美图秀秀AI误差修复与手动涂抹【指南】  AI朋友圈文案生成工具有哪些_一键生成营销文案的AI工具推荐  美图秀秀AI抠图如何换背景_美图秀秀AI背景替换与贴纸添加【攻略】  通义听悟转会议纪要怎么用_通义听悟转会议纪要使用方法详细指南【教程】  优化《现代战争2》色彩:提升游戏视觉体验终极指南  扣子AI怎样设置多轮对话逻辑_扣子AI逻辑树搭建与分支设计【教程】  提升效率:使用AI代理自动生成视频标题的实用指南  Brevio AI:利用AI代理提升电商营销效果  如何用AI帮你检查代码中的潜在安全漏洞?  雷小兔ai智能写作如何生成文案_雷小兔ai智能写作文案生成场景选择【攻略】  AI内容检测与优化:免费工具助你提升内容质量  百度AI助手网页版入口 免安装直接打开入口  AI视频工具:加速内容创作,提升效率的终极指南  EdrawMax AI:项目管理和创意专业人士的终极图表工具  Venggage AI Pitch Deck生成器:快速创建投资者演示文稿  Xeon E5-2667 V2性能评测:老平台焕发新生,游戏与工作负载表现分析  ASUS Armoury Crate深度评测:最新功能与个性化定制  利用 DeepSeek 进行大规模 C++ 代码库审计 

 2024-07-26

了解您产品搜索量及市场趋势,制定营销计划

同行竞争及网站分析保障您的广告效果

点击免费数据支持

提交您的需求,1小时内享受我们的专业解答。

南京市珐之弘网络技术有限公司


南京市珐之弘网络技术有限公司

南京市珐之弘网络技术有限公司专注海外推广十年,是谷歌推广.Facebook广告全球合作伙伴,我们精英化的技术团队为企业提供谷歌海外推广+外贸网站建设+网站维护运营+Google SEO优化+社交营销为您提供一站式海外营销服务。

 87067657

 13565296790

 87067657@qq.com

Notice

We and selected third parties use cookies or similar technologies for technical purposes and, with your consent, for other purposes as specified in the cookie policy.
You can consent to the use of such technologies by closing this notice, by interacting with any link or button outside of this notice or by continuing to browse otherwise.