DeepSeek发布新技术论文,梁文锋亲自挂帅,长文本推理能力飙升

2月18日,DeepSeek团队发布了一项具有里程碑意义的技术成果——原生稀疏注意力机制(Native Sparse Attention,NSA)。

这一创新技术专为长文本训练与推理设计,通过算法优化与硬件对齐,显著提升了大语言模型在长上下文任务中的效率和性能。

DeepSeek发布新技术论文,梁文锋亲自挂帅,长文本推理能力飙升

DeepSeek创始人梁文锋不仅亲自参与了这项研究,还亲自提交了相关论文,其他研究人员来自DeepSeek、北大和华盛顿大学,其中第一作者Jingyang Yuan(袁景阳)是在DeepSeek实习期间完成的这项研究。

从时间上看,梁文锋是在周日16号提交的论文,然后在第二天,也就是昨天出席了民营企业座谈会。

DeepSeek发布新技术论文,梁文锋亲自挂帅,长文本推理能力飙升

革命性NSA注意力机制问世

根据最新发布的论文,NSA的核心亮点可以概括为以下两点:

1、动态分层稀疏策略:NSA采用了一种动态分层的稀疏策略,结合了粗粒度的Token压缩和细粒度的Token选择。这种策略既提升了效率,也保留了模型对全局长上下文的感知能力和局部精确性。

2、两大关键创新:算术强度平衡的算法设计与硬件优化,NSA通过精巧的算法设计,并针对现代硬件进行了实现优化,显著提升了计算速度;可训练的稀疏注意力,NSA支持端到端训练,减少了预训练计算成本,同时保持模型性能。

具体来看,NSA的核心在于动态分层稀疏策略,结合了粗粒度的Token压缩和细粒度的Token选择。这种策略不仅保留了全局上下文的感知能力,还兼顾了局部信息的精确性。

DeepSeek发布新技术论文,梁文锋亲自挂帅,长文本推理能力飙升

具体而言,NSA通过三种并行的注意力分支处理输入序列:压缩注意力(Compressed Attention)、选择注意力(Selected Attention)和滑动窗口注意力(Sliding Window Attention)。

压缩注意力负责捕获全局信息,选择注意力专注于关键Token块,而滑动窗口注意力则处理局部上下文信息。三个分支的输出通过门控机制聚合,从而实现高效的长文本建模。

此外,NSA还引入了算术强度平衡的设计,针对现代硬件进行优化,显著提升了计算速度。通过端到端的可训练性,NSA减少了预训练计算量,同时保持了模型性能。

这些创新使得NSA在长上下文任务中表现出色,特别是在处理64k长度的序列时,解码、前向传播和反向传播的速度提升最高可达11.6倍。

DeepSeek发布新技术论文,梁文锋亲自挂帅,长文本推理能力飙升

DeepSeek发布新技术论文,梁文锋亲自挂帅,长文本推理能力飙升

有网友说这就像给Transformer装上了“曲率引擎°”。确实,这提升太离谱了!就连很多大佬都忍不住要感叹:这是把传统注意力机制按在地上擦啊!

实验结果显示,NSA在多个基准测试中均展现出卓越的性能。在通用基准测试、长文本任务和指令推理方面,使用NSA预训练的模型不仅性能超越了传统的全注意力模型,还在长上下文任务中展现出显著优势。

在64k上下文的“大海捞针”测试中,NSA实现了完美的检索准确率,证明了其在长序列处理中的高效性和准确性。

在硬件效率方面,NSA的表现同样令人瞩目。

在8卡A100计算集群上,NSA的前向传播和反向传播速度分别比全注意力快9倍和6倍。这种速度提升不仅源于硬件对齐的算法设计,还归功于分块内存访问模式和精细的循环调度,最大限度地利用了Tensor Core的计算能力。

通过减少内存访问量,NSA在长序列解码时的效率优势尤为明显,尤其是在处理128k上下文时,速度提升更为显著。

NSA的推出为大语言模型在长文本处理领域的应用带来了新的可能性。通过高效的长序列处理能力,模型可以直接处理整本书籍、代码仓库或多轮对话(如千轮客服场景),极大地扩展了大语言模型的应用边界。Gemini 1.5 Pro已展示了长上下文的潜力,而NSA的引入将进一步降低此类模型的训练与推理成本。

与此同时,NSA的硬件友好设计和训推一体化特性使其在实际应用中更具优势。

科技媒体指出,DeepSeek此次使用了Triton框架,而非英伟达专用库,这或许暗示了其在模型研发阶段已考虑适配更多类型的计算卡,为未来的开源和广泛应用奠定了基础。

同日早些消息,马斯克旗下XAI举行Grok 3发布会,对此,很快也有对比分析指出,与DeepSeek的技术创新路径形成鲜明对比的是,xAI选择了对工程规模的极致追求。

DeepSeek发布新技术论文,梁文锋亲自挂帅,长文本推理能力飙升

Grok3使用了20万块GPU集群,而未来的Grok4更是计划使用百万块GPU。这种“财大气粗”的策略虽然在短期内实现了对之前SOTA模型的反超,但投入产出比并不理想。

相比之下,DeepSeek通过算法优化和硬件对齐,以更低的成本实现了更高的性能提升,展现了其在技术破局中的独特优势。

附论文链接:https://arxiv.org/abs/2502.11089

主题测试文章,只做测试使用。发布者:北方经济网,转转请注明出处:https://www.hujinzicha.net/5574.html

(0)
北方经济网的头像北方经济网
上一篇 2025年3月25日 下午3:07
下一篇 2025年3月25日

相关推荐

  • 政策跟踪:推动各方面政策措施早出手、快出手

    报告正文 3.政策跟踪:推动各方面政策措施早出手、快出手 3.1 推动中国与东盟国家关系迈上新台阶 2025年4月15-17日,习近平主席分别会见越南、马来西亚、柬埔寨三国领导人,推动中国与东盟国家关系迈上新台阶。习近平主席与越方会谈聚焦增进战略互信、建设安全屏障,推进“一带一路”与“两廊一圈”对接及人工智能等新兴领域合作;同马来西亚会谈聚焦建立外交、国防“…

    2025年4月22日
    2600
  • 概念掘金 | 微信接入DeepSeek,10亿级市场震撼来袭!这些公司或将受益

    2月15日深夜,微信上线了一个“核弹级”功能——AI搜索接入DeepSeek-R1大模型。 微信作为月活超13亿的超级入口,接入DeepSeek-R1模型后,将直接推动AI搜索、智能客服、个性化推荐等功能的升级。 市场普遍认为,此举标志着中国AI技术从实验室迈向大规模商业化落地的关键一步。 2月以来,恒生科技指数已累计上涨16%,此次消息或进一步点燃AI产业…

    2025年3月25日
    2300
  • 宝尊电商2024年财报:战略转型成效显现 全渠道与品牌管理双轮驱动增长

    在电商服务行业竞争加剧与技术变革交织的背景下,宝尊电商通过持续战略转型逐步构建新的增长动能。 根据宝尊电商2024年第四季度及全年财报,公司全年净收入达94亿元,同比增长7%,非公认会计准则下经营利润扭亏为盈,标志着其从传统代运营向技术驱动型服务商的转型,已迈出关键性的一步。 资本市场对宝尊电商的价值重估正在加速兑现。其港股股价自2025年初低点6.97港元…

    商业 2025年3月25日
    2200
  • 蛇年复工的“成色”如何?

    摘要 一问:年初生产表现几何?复工节奏偏慢,PTA开工、货运量回落指向生产进度偏弱。 高频化繁为简,高炉、PTA开工、公路货运量等指标能更有效跟踪工业生产。当前较多高频指标受内生性扰动、行业统计因素等对经济指标映射有所失真,因此亟需构建有效的指标集。基于上下游关系,工业分为冶金、石化及消费制造链。其中高炉开工能更有效追踪冶金链生产;PTA开工与石化链生产较同…

    2025年3月25日
    2100
  • 白宫权利交锋,马斯克“发难”鲁比奥?特朗普忙灭火!

    特朗普上任一月有余,白宫内的权利交锋时有传出。 眼下,特朗普的两位重臣——马斯克与国务卿鲁比奥被曝“干架”,引美媒以及全球吃瓜网友热议。 为此,特朗普赶紧出来“灭火”。 他辟谣表示,两人相处得很好,还怼记者称“你才是麻烦制造者”。 内阁会议变“战场”? 作为政坛小萌新,马斯克大有“初生牛犊不怕虎”的意思。 在日前的白宫内阁会议上,据说马斯克就裁员问题轮番炮轰…

    商业 2025年3月25日
    1700

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信