
文章来源: 更新时间:2025-01-05 18:50:09
我很期待,因为马斯克卡在了一个【奇特的点】上(不是奇点哈),会成为Scaling Laws这个话题讨论的重要例子 我来说说两个背景: ①DeepSeek V3的基础模型已经“位列仙班”(SOTA) 用2000张卡训练了两个月(以H800为主,性能毛估估只有H100的一半,仅相当于1000张H100,炸裂啊。
),成本是557.6万美金,671B MoE系统,激活参数37B,使用数据量14.8T tokens (据称是)高质量数据。
训练算力消耗极低。
马斯克的十倍算力实际上是DeepSeek V…。
地址:广东省广州市天河区88号电话:400-123-4657传真:+86-123-4567
版权所有: