如何评价 deepseek 上线的 deepseek-V3 模型？_低温低湿干燥储存柜-大容量高速台式冷冻离心机-万得福纳特

产物中心

电话：400-123-4657
地址：广东省广州市天河号
传真：+86-123-4567
邮箱：补诲尘颈苍蔼测辞耻飞别产.肠辞尘

新闻动态

如何评价 deepseek 上线的 deepseek-V3 模型？

文章来源：　更新时间：2024-12-29 06:30:07

DeepSeekV3 这篇技术报告干货满满，先提两点非常值得讨论的： DeepSeekV3 是第一个公开宣布用 FP8 混合精度训练的大模型，之前的 LLaMa3、Qwen2.5、Yi 等都是基于 BF16 混合精度训练。

H100/H800 上 FP8 训练有 40% 以上的加速，但会有训练不稳定、精度损失的问题，NV 23年开始疯狂推 FP8 训练，但一直不太成功，前期几个厂尝试都有各种问题， DeepSeek 搞定这个真的牛。

DeepSeekV3 可以说是把 MoE 分布式推理做到了极致。

之前模…。

【返回列表】