o1研发团队首次集体访谈：教AI数r用了一年半

真实自我今天 15

默认

摘要： 让模型知道自己擅长什么不擅长什么是一个很重要的问题还记得这些天大模型被揪出来的低级错误吗不知道和哪个大数不清单词里面有多少个每每被克雷西明敏发自凹非寺量子位公众号笑死原来也像人类一...

让模型知道自己擅长什么、不擅长什么是一个很重要的问题。还记得这些天大模型被揪出来的低级错误吗?不知道9.11和9.9哪个大，数不清Strawberry单词里面有多少个r……每每被

克雷西明敏发自凹非寺
量子位 | 公众号 QbitAI

笑死，原来o1也像人类一样喜欢赶ddl（手动狗头）。

这是在o1团队的“大型见面会”上，OpenAI创始成员Wojciech Zaremba揭开的o1“黑历史”。

包括Zaremba在内的18名团队成员，在首席研究官Bob McGrew的带领之下围坐一团。

o1核心贡献者Hyung Won Chung、Noam Brown等关键人物，也都在此列。

随着成员们的踊跃发言，o1的发展历程也逐渐被揭开——受AlphaGo和早期GPT模型的启发，想到了将两张背后的范式结合。

后来，团队训练出了个可以生成连贯思维链的模型，标志着研究方向开始逐渐明朗和聚焦……

在充满松弛感的气氛当中，众人还分享了有关o1研发的许多趣事：

同时在研究过程中他们还发现，o1不仅比人类更善于发现新的CoT推理步骤，并且还涌现出了自我批评能力。

有网友称赞说，这的确是一个出色的团队，喜欢听他们的发言，并且模型的能力也确实比以前强。

量子位整理了这次访谈的实录，下面就一起来看~