如何评价 DeepSeek 正式发布的 DeepSeek-R1与DeepSeek-R1-Zero模型？_低温低湿干燥储存柜-大容量高速台式冷冻离心机-万得福纳特

产物中心

电话：400-123-4657
地址：广东省广州市天河号
传真：+86-123-4567
邮箱：补诲尘颈苍蔼测辞耻飞别产.肠辞尘

新闻动态

如何评价 DeepSeek 正式发布的 DeepSeek-R1与DeepSeek-R1-Zero模型？

文章来源：　更新时间：2025-01-22 00:50:08

相当令人震撼的工作，特别是 Deepseek-r1-zero。

没有任何监督训练，纯强化学习首先，驳斥了“感谢OpenAI开源”、“蒸馏OpenAI-o1”的说法，Deepseek-r1-zero 模型在预训练之后，是完全没有经过任何监督学习的，也就是说没有使用任何其他思维链模型（以及人类）的输出。

从 Deepseek-v3 基座，直接进行强化学习，即可解锁 o1 级别的思维链能力。

只看答案，不搞花里胡哨Deepseek-r1-zero 在强化学习中，只有两种奖励：第一种：（…。

【返回列表】