陈丹琦等人组织的COLM奖项公布:被ICLR拒稿的Mamba入选杰出论文


会议组织者都是 nlp 头部科学家,在语言建模方面有着相当的成果。

随着 AI 领域的快速发展,大模型逐渐成为研究的核心,为了更好地探索这一领域,2025 年,一批知名的青年学者组织了一个名为 COLM(Conference on Language Modeling)的新会议。

该会议的组织者们都是 NLP 头部科学家,在语言建模方面有着相当的成果。他们其中既有来自业界的研究人员,也有来自学术界的研究人员。

在今年的组织者中,有我们熟悉的陈丹琦、Angela Fan 等华人学者。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

COLM 是一个专注于语言建模研究的学术场所,旨在创建一个具有不同科学专业知识的研究人员社区,专注于理解、改进和评论语言模型技术的发展。这不仅是学术界的一次创新尝试,也是搭起了语言模型交流互鉴的新桥梁,进一步促进其探索和合作。

接收论文链接:https://colmweb.org/AcceptedPapers.html

刚刚,大会公布了 2025 年杰出论文奖,共有 4 篇论文获奖。

值得一提的是,号称撼动 Transformer 统治地位的 Mamba 也在获奖论文中。

此前,Mamba 这项研究惨遭 ICLR 拒稿,引来学术界轩然大波。

不过,之后 Mamba 原班人马发布的 Mamba-2 顺利拿下了 ICML 2025。如今 Mamba 又获得了 COLM 杰出论文奖,很多网友都送来祝贺。

Mamba 作者之一、卡内基梅隆大学机器学习系助理教授 Albert Gu 用一张表情很好的表达了自己的感受,看来「COLM 是真香」。

杰出论文奖

论文 1:Dated Data: Tracing Knowledge Cutoffs in Large Language Models

  • 机构:霍普金斯大学

  • 作者:Jeffrey Cheng、Marc Marone、Orion Weller、Dawn Lawrie等

  • 论文地址:https://openreview.net/pdf?id=wS7PxDjy6m

大型语言模型 (LLM) 通常有「知识截止日期」,即收集训练数据的时间。该信息对于需要 LLM 提供最新信息的应用场景至关重要。

然而,训练数据中所有子资源是否共享相同的「知识截止日期」?模型响应展示出的知识是否与数据截止值一致?

该论文定义了「有效截止」的概念,它与 LLM 报告的「知识截止日期」不同,并且训练数据子资源之间也有所不同。该研究提出了一种简单的方法,通过跨版本的数据探测来估计 LLM 在资源级别的有效截止点。至关重要的是,该方法不需要访问模型的预训练数据。

通过分析,该研究发现有效的截止值通常与报告的截止值有很大不同。为了了解这一观察结果的根本原因,该研究对开放的预训练数据集进行了大规模分析。

分析揭示了造成这些不一致的两个主要原因:

  • 由于新 dump 中存在大量旧数据,导致 CommonCrawl 数据出现时间错位; 

  • LLM 重复数据删除方案的复杂性涉及语义重复和词汇近似重复。

论文 2:Mamba: Linear-Time Sequence Modeling with Selective State Spaces

  • 机构:卡内基梅隆大学、普林斯顿大学

  • 作者:Albert Gu、Tri Dao

  • 论文地址:https://arxiv.org/pdf/2312.00752

自 2017 年被提出以来,Transformer 已经成为 AI 大模型的主流架构,但随着模型规模扩大和处理序列变长,其计算效率问题凸显,特别是在长上下文中,计算量将呈平方级增长。

为解决这一问题,研究者们围绕注意力开发了多种变体,如线性注意力、门控卷积、循环模型、SSMs 等,但它们在语言等模态上的表现并不理想,无法进行基于内容的推理。

基于此,论文作者进行了几项改进。首先,让 SSM 参数成为输入的函数,解决了离散模态的弱点,使模型能根据当前 token 有选择地传播或遗忘信息。

这种改动导致卷积效率降低,对模型的计算带来了挑战。论文作者设计了一种硬件感知算法,将先前的 SSM 架构设计与 Transformer 的 MLP 块合并为一个块,简化了深度序列模型架构,形成了一种包含选择性状态空间的简单、同质的架构设计(Mamba)。

Mamba 可以随上下文长度的增加实现线性扩展,其性能在实际数据中可提高到百万 token 长度序列,并实现 5 倍的推理吞吐量提升。

作为通用序列模型的骨干,Mamba 在语言、音频和基因组学等多种模态中都达到了 SOTA 性能。在语言建模方面,无论是预训练还是下游评估,他们的 Mamba-3B 模型都优于同等规模的 Transformer 模型,并能与两倍于其规模的 Transformer 模型相媲美。

更多详情,可以参考本站之前的报道:五倍吞吐量,性能全面包围 Transformer:新架构 Mamba 引爆 AI 圈。

论文 3:AI-generated text boundary detection with RoFT

  • 机构:俄罗斯 AI 基金会与算法实验室、英国伦敦玛丽女王大学、日本 Noeon 研究所、斯科尔科沃科学技术学院等

  • 作者:Laida Kushnareva, Tatiana Gaintseva, Dmitry Abulkhanov等

  • 论文地址:https://arxiv.org/pdf/2311.08349

随着大语言模型的发展,我们越来越频繁地遇到这样的情况:一篇文章起初可能出自人类之手,但随后可能被 AI 接手加以润色。如何从这种文本中检测出人类写作与机器生成的界限?这是一个具有挑战性的问题,但还尚未得到太多关注。

论文作者试图填补这一空白。他们对最先进的检测方法进行了测试。具体而言,他们采用「真假文本」测试集,测试了在极限情况下,这些方法的表现。「真假文本」测试集包含各种语言模型生成的多个主题的短文本。

他们发现,基于困惑度的边界检测方法,在处理特定领域的数据时,比对 RoBERTa 模型进行监督式的方法更加鲁棒。他们还发现了一些特定的文本特征。这些特征可能会干扰边界检测算法的判断,导致算法在处理跨领域的文本时,其性能会下降。

论文 4:Auxiliary task demands mask the capabilities of smaller language models

  • 机构:哈佛大学、斯坦福大学

  • 作者:Jennifer Hu、Michael Frank

  • 论文地址:https://openreview.net/forum?id=U5BUzSn4tD#discussion

发展心理学家一直在争论语言理解或心理理论等认知能力何时出现。这些争论通常取决于「任务要求」的概念 —— 与执行特定评估相关的挑战。在衡量语言模型 (LM) 的能力时,任务的性能是模型基础知识的函数,再加上模型在给定可用资源的情况下解释和执行任务的能力。

该研究表明,对于类比推理、反思推理、单词预测和语法判断,任务要求较高的评估方法比要求减少的评估方法产生的性能更低。对于参数较少和训练数据较少的模型,这种「需求差距」最为明显。实验结果表明,LM 的性能不应被解释为智能(或缺乏智能)的直接表现,而应被解释为通过研究人员设计选择的视角所看到的能力反映。


# 的是  # 斯坦福大学  # 模态  # 普林斯顿  # 较少  # 门控  # 进行了  # 截止日期  # 都是  # 架构  # 这一  # https  # nlp  # transformer  # 算法  # 循环  # Token  # html 


相关栏目: 【 Google疑问12 】 【 Facebook疑问10 】 【 网络优化91478 】 【 技术知识72672 】 【 云计算0 】 【 GEO优化84317 】 【 优选文章0 】 【 营销推广36048 】 【 网络运营41350 】 【 案例网站102563 】 【 AI智能45237


相关推荐: 通义万相做小红书配图怎么用_通义万相做小红书配图使用方法详细指南【教程】  XRAI Glass:AI赋能的增强现实眼镜,对话新体验  美图AI海报设计怎样匹配品牌VI_美图AI海报设计VI匹配与色彩校准【教程】  AI驱动音频优化:提升音质的终极指南  2025年度AMD处理器终极评选:年度最佳CPU推荐  Agentic Testing入门:使用Playwright和Claude Code构建自动化框架  寓言故事:狮子与老鼠,学习英语的趣味童话之旅  挖掘用户数据:洞察与策略,提升播客全球影响力  Gemini怎样写细节型提示词_Gemini细节提示词编写【步骤】  AI产品经理:AI赋能与AI原生,未来PM的技能演进  Google AI Studio:免费AI视频生成器使用指南  使用Go语言构建图像识别系统:完整指南  Power BI: 如何在 Power Query 中更改数据类型  轻松制作圣经视频:无需露脸也能赚钱的教程  百度输入法智能预测怎么关 百度输入法ai联想词关闭  批改网ai检测工具怎么设置检测严格度_批改网ai检测工具严格度调整【技巧】  探索占星术:揭秘 कुंडली 中的 शुक्र,财富与运势的钥匙  豆包AI怎么用提示词生成短视频脚本_豆包AI脚本提示词编写【教程】  百度AI助手在线体验入口 最新版免费试用入口  5分钟教你用AI生成短视频分镜脚本,小白也能拍大片  AI海报设计终极指南:免费智能工具,手机轻松搞定!  趣味 Phonics:轻松掌握 CVC 单词拼读技巧  Wix AI:无需代码免费创建专业网站完整指南  批改网ai检测工具怎样生成改进建议_批改网ai检测工具改进建议查看与应用【攻略】  AI卡通视频制作终极指南:轻松打造百万流量  锂提取AI工具:地热数据分析与机器学习建模深度解析  千问怎么用提示词生成演讲稿_千问演讲稿提示词框架与开场【教程】  ChatGPT多轮对话技巧分享 引导AI深入探讨复杂问题的方法  3步教你用AI将文字转换成语音,实现配音自由  豆包AI怎么关闭消息推送_通知与提醒管理设置教程  怎么用ai生成配色方案 AI设计色彩搭配与灵感获取【技巧】  Kling 2.0终极指南:AI视频创作秘籍,告别低质量  AI在销售CRM软件中的角色:提升效率和客户互动  AI赋能科研探索:Google Research创新加速科学发现  AI测试面试准备:提升你的面试技巧与知识储备  千问如何生成年终总结PPT_千问PPT模板选择与内容自动填充【攻略】  雷小兔ai智能写作如何优化语句_雷小兔ai智能写作语句润色技巧【攻略】  播客数据深度解析:揭秘全球听众分布和增长策略  Higgsfield WAN 2.5:AI视频生成工具新纪元  农业模拟器25:AI助手与GPS终极指南  百度ai助手工具栏怎么关 百度ai助手状态栏隐藏  135编辑器AI排版怎样快速上手_135编辑器AI排版新手入门与功能介绍【教程】  AI海报设计终极指南:用ChatGPT和ImageFX轻松创建专业级海报  可灵ai怎么生成招聘JD文案_可灵aiJD生成要素与岗位描述优化【技巧】  2025年最佳AI时间管理软件:Motion、Reclaim AI与Clockwise终极评测  银行经理写给银行经理的信:实用模板和关键要素  Saregama Carvaan: 5000首经典歌曲唤醒你的回忆  AI工作流程详解:概念到生产的完整指南  5分钟教你用AI给黑白老照片上色,让回忆变得鲜活  AI驱动保险代理:最佳保险 lead generation 公司与服务 

 2024-10-09

了解您产品搜索量及市场趋势,制定营销计划

同行竞争及网站分析保障您的广告效果

点击免费数据支持

提交您的需求,1小时内享受我们的专业解答。

南京市珐之弘网络技术有限公司


南京市珐之弘网络技术有限公司

南京市珐之弘网络技术有限公司专注海外推广十年,是谷歌推广.Facebook广告全球合作伙伴,我们精英化的技术团队为企业提供谷歌海外推广+外贸网站建设+网站维护运营+Google SEO优化+社交营销为您提供一站式海外营销服务。

 87067657

 13565296790

 87067657@qq.com

Notice

We and selected third parties use cookies or similar technologies for technical purposes and, with your consent, for other purposes as specified in the cookie policy.
You can consent to the use of such technologies by closing this notice, by interacting with any link or button outside of this notice or by continuing to browse otherwise.