刚刚,DeepSeek开源FlashMLA,推理加速核心技术,Star量飞涨中


deepseek开源高效型mla解码核flashmla,助力hopper gpu推理加速!上周五deepseek预告开源周计划,并于北京时间周一上午9点开源了首个项目——flashmla,一款针对hopper gpu优化的高效mla解码内核,仅上线45分钟便收获400+star!

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

该项目Star数量持续飙升!

项目地址:https://www./link/a588b762d68fe60225d3de3c647a52b9

FlashMLA的核心在于优化可变长度序列处理,减少推理过程中的KV Cache,从而在有限硬件资源下实现更长上下文推理,显著降低推理成本。 目前已发布的版本支持BF16精度和64大小的分页kvcache,在H800 SXM5 GPU上内存速度上限达3000 GB/s,计算上限达580 TFLOPS。

使用条件:

  • Hopper GPU
  • CUDA 12.3及以上版本
  • PyTorch 2.0及以上版本

快速上手:

安装:

python setup.py install

基准测试:

python tests/test_flash_mla.py

在H800 SXM5上使用CUDA 12.6,内存绑定配置下可达3000 GB/s,计算绑定配置下可达580 TFLOPS。

使用方法示例:

from flash_mla import get_mla_metadata, flash_mla_with_kvcache

tile_scheduler_metadata, num_splits = get_mla_metadata(cache_seqlens, s_q * h_q // h_kv, h_kv)

for i in range(num_layers):
    ...
    o_i, lse_i = flash_mla_with_kvcache(
        q_i, kvcache_i, block_table, cache_seqlens, dv,
        tile_scheduler_metadata, num_splits, causal=True,
    )
    ...

FlashMLA开源后获得广泛好评,甚至有网友调侃“第五天会是AGI”。

这无疑是真正的开源精神的体现!


# 可达  # 过程中  # 更长  # 并于  # 该项目  # 首个  # 分页  # 而在  # 绑定  # deepseek  # 开源  # agi  # https  # pytorch  # github  # ai  # git  # python 


相关栏目: 【 Google疑问12 】 【 Facebook疑问10 】 【 网络优化91478 】 【 技术知识72672 】 【 云计算0 】 【 GEO优化84317 】 【 优选文章0 】 【 营销推广36048 】 【 网络运营41350 】 【 案例网站102563 】 【 AI智能45237


相关推荐: AI面试作弊与反作弊:求职者与企业的博弈  Feelin网页版在线玩 Feelin角色扮演网页版入口  RPGGO AI:颠覆传统!2D游戏创作新纪元  C3.ai深度解析:投资者必知的关键洞察  法国历史古迹修复:探秘 Château de Purnon 城堡的艺术与挑战  教你用AI把照片变成动漫风格,3个简单步骤刷爆朋友圈  理论框架写作指南:3步构建研究基石  ChatGPT写论文大纲教程 辅助学术构思与资料检索操作方法  AI周报生成工具有哪些_一键生成工作总结的AI工具推荐  畅游长崎:寻找宝可梦与樱花的浪漫之旅  Tradie Hub:领先的线索管理系统,助力业务增长  AI症状自检:最佳AI症状检查器,告别网络庸医!  教你用AI进行角色扮演对话,练习你的沟通和谈判技巧  OpenArt:终极AI内容创作平台,图像、视频和角色一致性  夸克AI怎么用AI写作_夸克AI写作功能与模板选择【指南】  Tenorshare AI Bypass:终极AI内容人性化工具深度评测  GitHub Copilot终极指南:提升代码效率与质量  百度输入法ai组件怎么删除 百度输入法ai组件移除工具  ChatGPT怎样一键生成PPT_ChatGPT生成PPT方法【步骤】  手相解析:生命线的形状与意义详解,预示健康、财富和命运  教你用AI一键生成Excel VBA脚本,彻底告别重复操作  千问AI赚钱指南:新手也能月入破万的实操路径解析!  HelloData.ai:AI驱动的多户型房地产市场分析平台  ChatGPT怎样用提示词分步骤提问_ChatGPT分步提问技巧【方法】  如何用 ChatGPT 快速生成短视频分镜脚本  DeepSeek写合同怎么用_DeepSeek写合同使用方法详细指南【教程】  AI广告全面解析:免费教程、JSON提示与营销策略  微信AI数字人如何设置工作时间_微信AI数字人时段开关与值班安排【实操】  AI交易机器人:TradingView上无需代码即可构建AI交易机器人指南  CallidusAI:提升合同起草效率的智能Word插件指南  Xcode 26 Beta 新功能:集成 ChatGPT 代码助手全面测评  Roblox Studio AI 助手:创意构建与无限可能  《高龄母亲》:从日本民间故事中汲取的人生智慧与家庭真谛  AI Excel公式生成工具有哪些_一键生成函数公式的AI工具推荐  Gemini怎样写实用型提示词_Gemini实用提示词编写【攻略】  goPDF:AI驱动的PDF文档处理全方位指南,提升工作效率  稿定AI智能设计怎样自动生成电商Banner_稿定AI智能设计Banner生成流程【步骤】  Docker MCP Toolkit:简化AI代理与外部工具的连接  通义千问怎么设置常用功能快捷键_通义千问快捷键设置【步骤】  3步教你用AI自动分类文件,整理电脑告别杂乱  AI视频创作新纪元:CogVideoX Flash模型深度解析  AI图片生成教程:轻松打造你的专属文化艺术照  ChatGPT 辅助自媒体博主进行选题与大纲策划  谷歌 Nano Banana:免费AI图像生成的强大工具  AI自动化工作流:Zapier提升效率,优化工作流程  Gemini怎样写描述型提示词_Gemini描述提示词编写【攻略】  Azure AI 文本分类指南:自定义模型,提高文本分析精度  通义千问怎样写小红书文案_通义千问文案写作步骤【步骤】  智谱AI智能绘图怎么用_智谱AI智能绘图使用方法详细指南【教程】  利用AI模板高效创建产品需求文档 (PRD) 

 2025-02-24

了解您产品搜索量及市场趋势,制定营销计划

同行竞争及网站分析保障您的广告效果

点击免费数据支持

提交您的需求,1小时内享受我们的专业解答。

南京市珐之弘网络技术有限公司


南京市珐之弘网络技术有限公司

南京市珐之弘网络技术有限公司专注海外推广十年,是谷歌推广.Facebook广告全球合作伙伴,我们精英化的技术团队为企业提供谷歌海外推广+外贸网站建设+网站维护运营+Google SEO优化+社交营销为您提供一站式海外营销服务。

 87067657

 13565296790

 87067657@qq.com

Notice

We and selected third parties use cookies or similar technologies for technical purposes and, with your consent, for other purposes as specified in the cookie policy.
You can consent to the use of such technologies by closing this notice, by interacting with any link or button outside of this notice or by continuing to browse otherwise.