txt.sour.is zhi-hu-mei-ri-jing-xuan@feeds.twtxt.net "OpenAI o1 self-play RL 技术路线推演 OpenAI的self-play RL新模型o1最近交卷，直接引爆了关于对于self-play的讨论。在数� ..."

feeds.twtxt.net

Mon, Sep 23 05:59 2024 (1y ago)

OpenAI o1 self-play RL 技术路线推演
OpenAI的self-play RL新模型o1最近交卷，直接引爆了关于对于self-play的讨论。在数理推理领域获得了傲人的成绩，同时提出了train-time compute和test-time compute两个全新的RL scaling law。作为领域博主，在时效性方面肯定卷不过其他营销号了，所以这次准备了大概一万字的内容，彻底深入分析并推演一遍其中的相关技术细节。

Image

o1，而今迈步从头越

首先要说一下，o1是一个多模态模型，很多人包括 Jim Fan 都忽略了这一点：

Image

因此他继续叫做o，作为omni系列是没有任何疑问的。只不过这次发布是过于低调了，很多人都没有注意到 … ⌘ Read more

⤋ Read More