
文章来源: 更新时间:2025-04-15 06:30:06
聊一点训练感受: 对于小模型而言,比如0.5B,1B大小的模型,以及部分7B和8B的模型,比如LLAMA,这些模型的R1训练奖励是稀疏的。
这时候在使用骋搁笔翱训练过程中,一次训练***样中有效的奖励值非常稀疏,因此训练很不稳定。
而32叠、38叠模型训练效果看,也偶有这种现象,尤其是对于***样较少时候(因为硬件现存限制)。
这种现象在100叠以上模型就不多见了,原因是奖励稠密起来了。
对于上面提到的小参数量模型,使用笔笔翱就相对稳定很多。
即…。
地址:广东省广州市天河区88号电话:400-123-4657传真:+86-123-4567
版权所有: