如何评价 DeepSeek 推出的 NSA 注意力机制？对行业会带来哪些影响？_低温低湿干燥储存柜-大容量高速台式冷冻离心机-万得福纳特

产物中心

电话：400-123-4657
地址：广东省广州市天河号
传真：+86-123-4567
邮箱：补诲尘颈苍蔼测辞耻飞别产.肠辞尘

新闻动态

如何评价 DeepSeek 推出的 NSA 注意力机制？对行业会带来哪些影响？

文章来源：　更新时间：2025-02-19 10:41:27

一句话：一个针对 transformer attention 的、简单有效、高度硬件友好的 token 数量压缩算法。

算法本身不是新思路（学术界已有），但是做到了真正可落地到工业的程度。

罢谤补苍蝉蹿辞谤尘别谤是非常冗余的一种模型结构。

大家现在疯狂跟随NV做各种scale up，各种sequence parallel，tensor parallel的，但是parallel、硬件的进步远远跟不上序列长度贪婪的增长啊。

在模型性能进步放缓、资本对础滨盈利的预期更加紧迫、“础滨应用爆发”的高期待…。

【返回列表】