
文章来源: 更新时间:2025-03-12 05:00:06
我只能感慨真的有钱。
这篇文章的结论和数据是要花不少钱才能得出结果的。
可以说是“豪无人性”。
典型的通过data driven研究scaling law的经典范例。
这里的scaling laws的结论比较符合直觉。
最优learning rate正比于数据量,反比于模型参数量。
最优batch size直接正比于数据量。
这个scaling laws在某几个维度上具有稳定性,这个比较让我诧异。
对于model shape这个我能理解,毕竟相同structure的model不同的shape会遵循相同的sca…。
地址:广东省广州市天河区88号电话:400-123-4657传真:+86-123-4567
版权所有: