lstm:这次重生,我要夺回 transformer 拿走的一切。
在20世纪90年代,长短时记忆(LSTM)方法引入了恒定误差选择轮盘和门控的核心思想。三十多年来,LSTM经受住了时间的考验,并为众多深度学习的成功案例做出了贡献。然而,随着Transformer横空出世之后,LSTM自身所存储的局限性使其风光不再。
当人们都以为 Transformer 在语言模型领域稳坐江山的时候,LSTM 又杀回来了 —— 这次,是以 xLSTM 的身份。
5 月 8 日,LSTM 提出者和奠基者 Sepp Hochreiter 在 arXiv 上传了 xLSTM 的预印本论文。
☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜
在论文的机构中还出现了一家名为“NXAI”的公司,Sepp Hochreiter表示:“借助xLSTM,我们缩小了与现有最先进LLM的差距。借助NXAI,我们已开始构建自己的欧洲LLM。”
论文标题:xLSTM: Extended Long Short-Term Memory
论文链接:https://arxiv.org/pdf/2405.04517
具体来说,xLSTM 从三个层面解决了 LSTM 以往所存在的局限性:
(i) 无法修改存储决策。
可以通过「最近邻搜索」(Nearest Neighbor Search)问题来举例说明这一局限性:在给定参考向量的情况下,必须按顺序扫描序列,寻找最相似的向量,以便在序列末端提供其附加值。图 2 左侧显示了这项任务的均方误差。当发现更相似的向量时,LSTM 难以修改存储的值,而新的 xLSTM 通过指数门控弥补了这一限制。
(ii) 存储容量有限,即信息必须压缩成标量单元状态。
图 2 右侧给出了 Wikitext103 上不同 token 频率的 token 预测困惑度。由于 LSTM 的存储容量有限,它在不常见 token 上的表现较差。xLSTM 通过矩阵内存解决了这一问题。
(iii) 由于内存混合而缺乏可并行性,需要进行顺序处理。例如,从一个时间步到下一个时间步的隐藏状态之间的隐藏 - 隐藏连接。
与此同时,Sepp Hochreiter 和团队在这篇新论文中回答了一个关键问题:如果克服这些局限性并将 LSTM 扩展到当前大语言模型的规模时,能实现怎样的性能?
为了克服 LSTM 的局限性,xLSTM 对等式(1)中的 LSTM 理念进行了两项主要修改。
在原来的 LSTM 中,恒定误差选择轮盘是由单元输入 z_t 对单元状态 c_(t-1)(绿色)进行的加法更新,并由 sigmoid 门(蓝色)进行调节。输入门 i_t 和遗忘门
f_t 控制这一更新,而输出门 o_t 控制存储单元的输出,即隐藏状态 h_t。存储单元的状态被 ψ 归一化或压缩,然后输出门控得到隐藏状态。
xLSTM 的修改包括指数门控和新颖的内存结构,因此丰富了 LSTM 家族的两个成员:
(i) sLSTM(第 2.2 节),具有标量内存、标量更新和内存混合功能;
(ii) mLSTM(第 2.3 节),具有矩阵内存和协方差(外积)更新规则,完全可并行处理。
sLSTM 和 mLSTM 都通过指数门控增强了 LSTM。为了实现并行化,mLSTM 放弃了内存混合,即隐藏 - 隐藏递归连接。mLSTM 和 sLSTM 都可以扩展到多个存储单元,其中 sLSTM 具有跨单元内存混合的特点。此外,sLSTM 可以有多个头,但不存在跨头的内存混合,而只存在每个头内单元间的内存混合。通过引入 sLSTM 头和指数门控,研究者建立了一种新的内存混合方式。对于 mLSTM 而言,多头和多单元是等价的。
将这些新的 LSTM 变体集成到残差块模块中,就得到了 xLSTM 块。将这些 xLSTM 块剩余堆叠到架构中,就形成了 xLSTM 架构。xLSTM 架构及其组件见图 1。
xLSTM 块应在高维空间中对过去进行非线性总结,以便更好地分离不同的历史或上下文。分离历史是正确预测下一个序列元素(如下一个 token)的先决条件。研究者在此采用了 Cover 定理,该定理指出,在高维空间中,非线性嵌入模式比在原始空间中更有可能被线性分离。
他们考虑了两种残差块结构:(i) post up-projection 的残差块(如 Transformer),它非线性地概括了原始空间中的历史,然后线性地映射到高维空间,应用非线性激活函数,再线性地映射回原始空间(图 3 左侧和图 1 第三栏,更详细的版本见图 9)。(ii) pre up-projection 的残差块(如状态空间模型),它线性地映射到高维空间,在高维空间中非线性地总结历史,然后线性地映射回原始空间。对于包含 sLSTM 的 xLSTM 块,研究者主要使用了 post up-projection 块。对于包含 mLSTM 的 xLSTM 块,使用 pre up-projection 块,因为在高维空间中内存容量会变大。
实验
随后,研究者对 xLSTM 进行了实验评估,并将其与现有的语言建模方法进行了比较。
第 4.1 节讨论了 xLSTM 在合成任务中的具体能力。首先,研究者测试了 xLSTM 的新指数门控与内存混合在形式化语言上的有效性。然后,他们评估了 xLSTM 的新矩阵内存在多次查询联想记忆任务(Multi-Query Associative Recall,MQAR)中的有效性。最后,研究者评估了 xLSTM 在 Long Range Arena(LRA)中处理长序列的性能。
第 4.2 节比较了当前各种语言建模方法的验证集复杂度,包括在同一数据集上对 xLSTM 进行消融研究,然后对不同方法的缩放行为进行评估。
研究者在自回归语言建模设置中使用 SlimPajama 的 15B token 训练了 xLSTM、Transformers、状态空间模型(SSM)等模型。表 1 中的结果显示,xLSTM 在验证复杂度方面优于所有现有方法。
图 6 显示了该实验的扩展结果,表明 xLSTM 对于更大规模的模型也有良好的表现。
消融研究则表明,性能改进源于指数门控和矩阵内存。
第 4.3 节进行了更深入的语言建模实验。
研究者增加了训练数据量,对来自 SlimPajama 的 300B 个 token 进行了训练,并比较了 xLSTM、RWKV-4、Llama 和 Mamba。他们训练了不同大小的模型(125M、350M、760M 和 1.3B),进行了深入的评估。首先,评估这些方法在推断较长语境时的表现;其次,通过验证易混度和下游任务的表现来测试这些方法;此外,在 PALOMA 语言基准数据集的 571 个文本域上评估了这些方法;最后,评估了不同方法的扩展行为,但使用的训练数据多了 20 倍。
可以看出,xLSTM 在性能和扩展性上都更胜一筹。
更多研究细节,可参考原论文。
# 门控
# 自己的
# 见图
# 中非
# 新和
# 出了
# 扩展到
# 进行了
# 这一
# 架构
# llama
# https
# transformer
# lstm
# 堆
# 递归
# Token
相关栏目:
【
Google疑问12 】
【
Facebook疑问10 】
【
网络优化91478 】
【
技术知识72672 】
【
云计算0 】
【
GEO优化84317 】
【
优选文章0 】
【
营销推广36048 】
【
网络运营41350 】
【
案例网站102563 】
【
AI智能45237 】
相关推荐:
AI加持:2025年最佳人工智能潜在客户生成工具
千问怎样调整回答语气_千问语气设置亲切专业等【指南】
AI 播客脚本写作工具:提升内容创作效率的终极指南
讯飞星火怎么一键生成|直播|话术_讯飞星火话术生成与节奏把控【教程】
怎么使用网页版deepseek【教程】
AI绘图工具测评:告别复杂流程,高效创作流程图
都灵裹尸布之谜:AI揭示耶稣基督的真实面貌?
如何用AI帮你检查代码中的潜在安全漏洞?
AI标语生成器:轻松打造品牌口号,提升品牌价值
豆包AI怎么用提示词生成短视频脚本_豆包AI脚本提示词编写【教程】
面试成功秘诀:如何巧妙回答常见面试问题
AI猴子视频制作终极指南:从入门到网红,轻松上手!
通义万相AI绘画怎么用_通义万相AI绘画使用方法详细指南【教程】
探索泰勒·斯威夫特《August》的深层含义:歌词解析与情感分析
Claude怎么用新功能诗歌创作_Claude诗歌创作使用【方法】
如何用AI根据职位描述(JD)定制你的求职信?
AI PPT生成工具有哪些_一键生成演示文稿的AI工具推荐
DeepSeek编程怎么用_DeepSeek编程使用方法详细指南【教程】
DeepSeek写小说怎么用_DeepSeek写小说使用方法详细指南【教程】
AI Agent:颠覆传统工作模式的关键力量
AI问卷调查生成工具有哪些_一键生成调研表单的AI工具推荐
怎么用AI学习新知识?3步教你构建个人知识库
软件工程师必备的AI工具:提升效率的六款利器
豆包AI能否用提示词调整回答深度_豆包AI深度控制提示词技巧【方法】
AI婴儿播客视频制作终极指南:免费工具与步骤
AGI未来展望:DeepMind CEO的深度解读与行业洞察
提升Fortnite OG游戏性能:NVIDIA控制面板最佳设置
AI学习秘籍:3个高效黑科技,解锁智能学习新时代
ChatGPT一键生成PPT怎么加内容_ChatGPTPPT内容添加【方法】
轻松入门:如何创建自己的图像识别模型
AI赋能营销:角色、策略与工具选择全指南
解密AI时尚摄影:打造完美形象的终极指南
宝可梦化石精灵大揭秘:晶灿钻石视角下的精灵演化
AI海报设计终极指南:免费智能工具,手机轻松搞定!
使用 DeepSeek 生成符合工业标准的 API 文档
AI驱动的Web应用测试:突破QA挑战,提升用户体验
Amazon Rekognition: 图像与视频分析的强大AI工具
通义千问网页版怎么切换账号_通义千问账号切换步骤【指南】
kimi生成ppt怎么编辑文字_kimi编辑文字后怎么保存
5分钟教你用AI生成短视频分镜脚本,小白也能拍大片
百度AI助手聊天入口 文心一言对话窗口入口
Jetson SegNet: 语义分割深度探索与实践
豆包AI帮你写代码注释 豆包AI编程辅助教程
Google AI Studio:免费AI视频生成器使用指南
批改网AI检测工具怎样开启实时检测_批改网AI检测工具实时检测开启与延迟设置【指南】
如何用AI设计一个Logo?5个步骤教你打造专属品牌标志
ChatGPT 4o图像生成器:免费AI绘画技巧与应用
利用 Google AI 进行图像元数据分析与整理
Foocus:免费AI图像生成器终极指南及 OnlyFans 替代方案
Claude怎样用提示词控制输出长度_Claude输出长度设置【教程】
2024-05-10
南京市珐之弘网络技术有限公司专注海外推广十年,是谷歌推广.Facebook广告全球合作伙伴,我们精英化的技术团队为企业提供谷歌海外推广+外贸网站建设+网站维护运营+Google SEO优化+社交营销为您提供一站式海外营销服务。