
文章来源: 更新时间:2025-02-19 10:41:27
一句话: 一个针对 transformer attention 的、简单有效、高度硬件友好的 token 数量压缩算法。
算法本身不是新思路(学术界已有),但是做到了真正可落地到工业的程度。
罢谤补苍蝉蹿辞谤尘别谤是非常冗余的一种模型结构。
大家现在疯狂跟随NV做各种scale up,各种sequence parallel,tensor parallel的,但是parallel、硬件的进步远远跟不上序列长度贪婪的增长啊。
在模型性能进步放缓、资本对础滨盈利的预期更加紧迫、“础滨应用爆发”的高期待…。
地址:广东省广州市天河区88号电话:400-123-4657传真:+86-123-4567
版权所有: