如何评价 deepseek 上线的 deepseek-V3 模型？_低温低湿干燥储存柜-大容量高速台式冷冻离心机-万得福纳特

产物中心

电话：400-123-4657
地址：广东省广州市天河号
传真：+86-123-4567
邮箱：补诲尘颈苍蔼测辞耻飞别产.肠辞尘

新闻动态

如何评价 deepseek 上线的 deepseek-V3 模型？

文章来源：　更新时间：2025-01-02 05:30:07

我觉得 deepseek v3 主要做成了 2 件事：继 flash attention 之后，又一个相信自己比英伟达懂 GPU 计算，并且做到了的团队；找到了 pretrain 的一个 10x 变化。

这里前者是指 fp8 训练，后者是指 pretrain batch size 的扩展。

fp8 训练应该算是各个工程团队长久的痛。

大家都明白 fp8 的计算峰值是 bf16 的两倍，但是除了 23 年 Yi 团队对外宣传成功做了 fp8 的 pretrain，fp8 这里一直都没有一个相对公开的 recipe，更多地是 “…。

【返回列表】