
文章来源: 更新时间:2025-02-15 06:50:37
这个真不确定: 这个郭达雅,好像是deepseek的工程师。
上面是他在推特(齿)上的内容。
(后面这推特删掉了) 看样子,deepseek R1,似乎是用强化学习,仅仅训练了两三周的产物,而且是在V3,发布后,开始运行RL(强化学习)的。
痴3是2024年12月26年发布,搁1于2025年1月20日发布。
刚好差不多叁周时间。
也就是说,似乎是发布了V3,然后用强化学习,训练了R1两三周,看到成绩不错,就立马在网上上架了…… 接着,春节期间,deep…。
地址:广东省广州市天河区88号电话:400-123-4657传真:+86-123-4567
版权所有: