
文章来源: 更新时间:2025-02-07 00:30:07
原论文链接: [2501.19393] s1: Simple test-time scaling 自从OpenAI o1在去年9月发布以来,它神奇的“time to think”能力引起了国内外的疯狂“复现潮”。
国内最先公开实现了“time to think”的是DeepSeek和Kimi。
顿别别辫厂别别办更是因为其搁1模型的惊艳而家喻户晓。
从技术路线来看,DeepSeek R1和OpenAI o1都是基于强化学习的方案,连一向“看各种不爽”的Yann Lecun都站出来说DeepSeek ZeRO中的纯强化学习方案非常有前途! 而李飞…。
地址:广东省广州市天河区88号电话:400-123-4657传真:+86-123-4567
版权所有: