天美乌鸦糖心mv

旧物回收类网站模板
最新公告: 诚信为本,市场在变,诚信永远不变...
产物中心
400-123-4657
电话:400-123-4657
地址:广东省广州市天河号
传真:+86-123-4567
邮箱:补诲尘颈苍蔼测辞耻飞别产.肠辞尘
新闻动态

当前位置: 天美乌鸦糖心mv > 新闻动态

如何评价 deepseek 上线的 deepseek-V3 模型?

文章来源: 更新时间:2025-01-02 05:30:07

我觉得 deepseek v3 主要做成了 2 件事: 继 flash attention 之后,又一个相信自己比英伟达懂 GPU 计算,并且做到了的团队;找到了 pretrain 的一个 10x 变化。

这里前者是指 fp8 训练,后者是指 pretrain batch size 的扩展。

fp8 训练应该算是各个工程团队长久的痛。

大家都明白 fp8 的计算峰值是 bf16 的两倍,但是除了 23 年 Yi 团队对外宣传成功做了 fp8 的 pretrain,fp8 这里一直都没有一个相对公开的 recipe,更多地是 “…。

如何评价 deepseek 上线的 deepseek-V3 模型?
【返回列表】

上一篇 : 为什么男性向下兼容,女性向上择优?

下一篇 : 中国女生与外国的女生有什么区别?

网站天美乌鸦糖心mv 对于我们 产物中心 废旧知识 回收范围 服务项目 新闻动态 在线留言 联系我们

地址:广东省广州市天河区88号电话:400-123-4657传真:+86-123-4567

版权所有:

分享到: