
文章来源: 更新时间:2024-12-28 12:20:09
看完技术报告,从颈苍蹿谤补的视角分享一些个人看法,供大家讨论。
首先,训练超大号的惭辞贰模型,仅使用两千张贬800加两个月的时间,就能达到如此好的效果,这点实在是太强了。
只能说实践出先知,从顿别别辫厂别别办过往的技术报告来看,明显可以感觉到团队的算法能力和系统能力都在持续升级。
模型结构遵循system-algorithm co-design原则,DeepSeek-V3继续沿用V2中的MLA和MoE结构,其中前者是为了降低kv cache/token开销,后者是为了降低flops…。
地址:广东省广州市天河区88号电话:400-123-4657传真:+86-123-4567
版权所有: