原作者带队,LSTM真杀回来了!


lstm:这次重生,我要夺回 transformer 拿走的一切。

在20世纪90年代,长短时记忆(LSTM)方法引入了恒定误差选择轮盘和门控的核心思想。三十多年来,LSTM经受住了时间的考验,并为众多深度学习的成功案例做出了贡献。然而,随着Transformer横空出世之后,LSTM自身所存储的局限性使其风光不再。

当人们都以为 Transformer 在语言模型领域稳坐江山的时候,LSTM 又杀回来了 —— 这次,是以 xLSTM 的身份。

5 月 8 日,LSTM 提出者和奠基者 Sepp Hochreiter 在 arXiv 上传了 xLSTM 的预印本论文。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

在论文的机构中还出现了一家名为“NXAI”的公司,Sepp Hochreiter表示:“借助xLSTM,我们缩小了与现有最先进LLM的差距。借助NXAI,我们已开始构建自己的欧洲LLM。”

  • 论文标题:xLSTM: Extended Long Short-Term Memory

  • 论文链接:https://arxiv.org/pdf/2405.04517

具体来说,xLSTM 从三个层面解决了 LSTM 以往所存在的局限性:

(i) 无法修改存储决策。

可以通过「最近邻搜索」(Nearest Neighbor Search)问题来举例说明这一局限性:在给定参考向量的情况下,必须按顺序扫描序列,寻找最相似的向量,以便在序列末端提供其附加值。图 2 左侧显示了这项任务的均方误差。当发现更相似的向量时,LSTM 难以修改存储的值,而新的 xLSTM 通过指数门控弥补了这一限制。

(ii) 存储容量有限,即信息必须压缩成标量单元状态。

图 2 右侧给出了 Wikitext103 上不同 token 频率的 token 预测困惑度。由于 LSTM 的存储容量有限,它在不常见 token 上的表现较差。xLSTM 通过矩阵内存解决了这一问题。

(iii) 由于内存混合而缺乏可并行性,需要进行顺序处理。例如,从一个时间步到下一个时间步的隐藏状态之间的隐藏 - 隐藏连接。

与此同时,Sepp Hochreiter 和团队在这篇新论文中回答了一个关键问题:如果克服这些局限性并将 LSTM 扩展到当前大语言模型的规模时,能实现怎样的性能?

将 LSTM 扩展到数十亿参数

为了克服 LSTM 的局限性,xLSTM 对等式(1)中的 LSTM 理念进行了两项主要修改。

在原来的 LSTM 中,恒定误差选择轮盘是由单元输入 z_t 对单元状态 c_(t-1)(绿色)进行的加法更新,并由 sigmoid 门(蓝色)进行调节。输入门 i_t 和遗忘门 f_t 控制这一更新,而输出门 o_t 控制存储单元的输出,即隐藏状态 h_t。存储单元的状态被 ψ 归一化或压缩,然后输出门控得到隐藏状态。

xLSTM 的修改包括指数门控和新颖的内存结构,因此丰富了 LSTM 家族的两个成员:

(i) sLSTM(第 2.2 节),具有标量内存、标量更新和内存混合功能;

(ii) mLSTM(第 2.3 节),具有矩阵内存和协方差(外积)更新规则,完全可并行处理。

sLSTM 和 mLSTM 都通过指数门控增强了 LSTM。为了实现并行化,mLSTM 放弃了内存混合,即隐藏 - 隐藏递归连接。mLSTM 和 sLSTM 都可以扩展到多个存储单元,其中 sLSTM 具有跨单元内存混合的特点。此外,sLSTM 可以有多个头,但不存在跨头的内存混合,而只存在每个头内单元间的内存混合。通过引入 sLSTM 头和指数门控,研究者建立了一种新的内存混合方式。对于 mLSTM 而言,多头和多单元是等价的。

将这些新的 LSTM 变体集成到残差块模块中,就得到了 xLSTM 块。将这些 xLSTM 块剩余堆叠到架构中,就形成了 xLSTM 架构。xLSTM 架构及其组件见图 1。

xLSTM 块应在高维空间中对过去进行非线性总结,以便更好地分离不同的历史或上下文。分离历史是正确预测下一个序列元素(如下一个 token)的先决条件。研究者在此采用了 Cover 定理,该定理指出,在高维空间中,非线性嵌入模式比在原始空间中更有可能被线性分离。

他们考虑了两种残差块结构:(i) post up-projection 的残差块(如 Transformer),它非线性地概括了原始空间中的历史,然后线性地映射到高维空间,应用非线性激活函数,再线性地映射回原始空间(图 3 左侧和图 1 第三栏,更详细的版本见图 9)。(ii) pre up-projection 的残差块(如状态空间模型),它线性地映射到高维空间,在高维空间中非线性地总结历史,然后线性地映射回原始空间。对于包含 sLSTM 的 xLSTM 块,研究者主要使用了 post up-projection 块。对于包含 mLSTM 的 xLSTM 块,使用 pre up-projection 块,因为在高维空间中内存容量会变大。

实验

随后,研究者对 xLSTM 进行了实验评估,并将其与现有的语言建模方法进行了比较。

第 4.1 节讨论了 xLSTM 在合成任务中的具体能力。首先,研究者测试了 xLSTM 的新指数门控与内存混合在形式化语言上的有效性。然后,他们评估了 xLSTM 的新矩阵内存在多次查询联想记忆任务(Multi-Query Associative Recall,MQAR)中的有效性。最后,研究者评估了 xLSTM 在 Long Range Arena(LRA)中处理长序列的性能。

第 4.2 节比较了当前各种语言建模方法的验证集复杂度,包括在同一数据集上对 xLSTM 进行消融研究,然后对不同方法的缩放行为进行评估。

研究者在自回归语言建模设置中使用 SlimPajama 的 15B token 训练了 xLSTM、Transformers、状态空间模型(SSM)等模型。表 1 中的结果显示,xLSTM 在验证复杂度方面优于所有现有方法。

图 6 显示了该实验的扩展结果,表明 xLSTM 对于更大规模的模型也有良好的表现。

消融研究则表明,性能改进源于指数门控和矩阵内存。

第 4.3 节进行了更深入的语言建模实验。

研究者增加了训练数据量,对来自 SlimPajama 的 300B 个 token 进行了训练,并比较了 xLSTM、RWKV-4、Llama 和 Mamba。他们训练了不同大小的模型(125M、350M、760M 和 1.3B),进行了深入的评估。首先,评估这些方法在推断较长语境时的表现;其次,通过验证易混度和下游任务的表现来测试这些方法;此外,在 PALOMA 语言基准数据集的 571 个文本域上评估了这些方法;最后,评估了不同方法的扩展行为,但使用的训练数据多了 20 倍。

可以看出,xLSTM 在性能和扩展性上都更胜一筹。

更多研究细节,可参考原论文。


# 门控  # 自己的  # 见图  # 中非  # 新和  # 出了  # 扩展到  # 进行了  # 这一  # 架构  # llama  # https  # transformer  # lstm  #   # 递归  # Token 


相关栏目: 【 Google疑问12 】 【 Facebook疑问10 】 【 网络优化91478 】 【 技术知识72672 】 【 云计算0 】 【 GEO优化84317 】 【 优选文章0 】 【 营销推广36048 】 【 网络运营41350 】 【 案例网站102563 】 【 AI智能45237


相关推荐: AI加持:2025年最佳人工智能潜在客户生成工具  千问怎样调整回答语气_千问语气设置亲切专业等【指南】  AI 播客脚本写作工具:提升内容创作效率的终极指南  讯飞星火怎么一键生成|直播|话术_讯飞星火话术生成与节奏把控【教程】  怎么使用网页版deepseek【教程】  AI绘图工具测评:告别复杂流程,高效创作流程图  都灵裹尸布之谜:AI揭示耶稣基督的真实面貌?  如何用AI帮你检查代码中的潜在安全漏洞?  AI标语生成器:轻松打造品牌口号,提升品牌价值  豆包AI怎么用提示词生成短视频脚本_豆包AI脚本提示词编写【教程】  面试成功秘诀:如何巧妙回答常见面试问题  AI猴子视频制作终极指南:从入门到网红,轻松上手!  通义万相AI绘画怎么用_通义万相AI绘画使用方法详细指南【教程】  探索泰勒·斯威夫特《August》的深层含义:歌词解析与情感分析  Claude怎么用新功能诗歌创作_Claude诗歌创作使用【方法】  如何用AI根据职位描述(JD)定制你的求职信?  AI PPT生成工具有哪些_一键生成演示文稿的AI工具推荐  DeepSeek编程怎么用_DeepSeek编程使用方法详细指南【教程】  DeepSeek写小说怎么用_DeepSeek写小说使用方法详细指南【教程】  AI Agent:颠覆传统工作模式的关键力量  AI问卷调查生成工具有哪些_一键生成调研表单的AI工具推荐  怎么用AI学习新知识?3步教你构建个人知识库  软件工程师必备的AI工具:提升效率的六款利器  豆包AI能否用提示词调整回答深度_豆包AI深度控制提示词技巧【方法】  AI婴儿播客视频制作终极指南:免费工具与步骤  AGI未来展望:DeepMind CEO的深度解读与行业洞察  提升Fortnite OG游戏性能:NVIDIA控制面板最佳设置  AI学习秘籍:3个高效黑科技,解锁智能学习新时代  ChatGPT一键生成PPT怎么加内容_ChatGPTPPT内容添加【方法】  轻松入门:如何创建自己的图像识别模型  AI赋能营销:角色、策略与工具选择全指南  解密AI时尚摄影:打造完美形象的终极指南  宝可梦化石精灵大揭秘:晶灿钻石视角下的精灵演化  AI海报设计终极指南:免费智能工具,手机轻松搞定!  使用 DeepSeek 生成符合工业标准的 API 文档  AI驱动的Web应用测试:突破QA挑战,提升用户体验  Amazon Rekognition: 图像与视频分析的强大AI工具  通义千问网页版怎么切换账号_通义千问账号切换步骤【指南】  kimi生成ppt怎么编辑文字_kimi编辑文字后怎么保存  5分钟教你用AI生成短视频分镜脚本,小白也能拍大片  百度AI助手聊天入口 文心一言对话窗口入口  Jetson SegNet: 语义分割深度探索与实践  豆包AI帮你写代码注释 豆包AI编程辅助教程  Google AI Studio:免费AI视频生成器使用指南  批改网AI检测工具怎样开启实时检测_批改网AI检测工具实时检测开启与延迟设置【指南】  如何用AI设计一个Logo?5个步骤教你打造专属品牌标志  ChatGPT 4o图像生成器:免费AI绘画技巧与应用  利用 Google AI 进行图像元数据分析与整理  Foocus:免费AI图像生成器终极指南及 OnlyFans 替代方案  Claude怎样用提示词控制输出长度_Claude输出长度设置【教程】 

 2024-05-10

了解您产品搜索量及市场趋势,制定营销计划

同行竞争及网站分析保障您的广告效果

点击免费数据支持

提交您的需求,1小时内享受我们的专业解答。

南京市珐之弘网络技术有限公司


南京市珐之弘网络技术有限公司

南京市珐之弘网络技术有限公司专注海外推广十年,是谷歌推广.Facebook广告全球合作伙伴,我们精英化的技术团队为企业提供谷歌海外推广+外贸网站建设+网站维护运营+Google SEO优化+社交营销为您提供一站式海外营销服务。

 87067657

 13565296790

 87067657@qq.com

Notice

We and selected third parties use cookies or similar technologies for technical purposes and, with your consent, for other purposes as specified in the cookie policy.
You can consent to the use of such technologies by closing this notice, by interacting with any link or button outside of this notice or by continuing to browse otherwise.