
文章来源: 更新时间:2025-01-02 05:30:07
我觉得 deepseek v3 主要做成了 2 件事: 继 flash attention 之后,又一个相信自己比英伟达懂 GPU 计算,并且做到了的团队;找到了 pretrain 的一个 10x 变化。
这里前者是指 fp8 训练,后者是指 pretrain batch size 的扩展。
fp8 训练应该算是各个工程团队长久的痛。
大家都明白 fp8 的计算峰值是 bf16 的两倍,但是除了 23 年 Yi 团队对外宣传成功做了 fp8 的 pretrain,fp8 这里一直都没有一个相对公开的 recipe,更多地是 “…。
地址:广东省广州市天河区88号电话:400-123-4657传真:+86-123-4567
版权所有: