圈小蛙

OpenAI发布其首款具有“推理”能力的模型o1:o1-preview和o1-mini

OpenAI发布了一款名为o1的新模型,这是计划中的一系列“推理”模型中的第一个,这些模型经过训练可以回答更复杂的问题,速度比人类更快。它将与更小、更便宜的o1-mini一起发布。是的,如果你对人工智能谣言很感兴趣:这实际上是被大肆宣传的Strawberry模型。

对于OpenAI来说,o1代表着它朝着类人人工智能的更广泛目标迈出了一步。更实际的是,它在编写代码和解决多步骤问题方面比以前的模型做得更好。但它也比GPT-4o更昂贵、使用速度更慢。OpenAI称o1的这个版本为“预览版”,以强调它还处于起步阶段。

ChatGPT Plus和Team用户从今天开始可以访问o1-preview和o1-mini,而Enterprise和Edu用户将于下周初获得访问权限。OpenAI表示,它计划向ChatGPT的所有免费用户提供o1-mini访问权限,但尚未确定发布日期。开发人员访问o1非常昂贵:在API中,o1-preview每100万个输入令牌或模型解析的文本块收费15美元,每100万个输出令牌收费60美元。相比之下,GPT-4o每100万个输入令牌收费5美元,每100万个输出令牌收费15美元。

OpenAI的研究负责人JerryTworek表示,o1背后的训练与之前的版本有着根本的不同,尽管该公司没有透露具体细节。他说o1“使用了一种全新的优化算法和专门为其量身定制的新训练数据集进行了训练。”

OpenAI教会了之前的GPT模型模仿其训练数据中的模式。借助o1,它使用一种称为强化学习的技术训练模型自行解决问题,该技术通过奖励和惩罚来教导系统。然后,它使用“思路链”来处理查询,类似于人类通过逐步解决问题来处理问题的方式。

OpenAI表示,由于采用了这种新的训练方法,该模型应该会更加准确。“我们注意到这个模型的幻觉减少了,”Tworek说。但问题仍然存在。“我们不能说我们解决了幻觉问题。”

OpenAI表示,这个新模型与GPT-4o的主要区别在于,它能够比前辈更好地解决编码和数学等复杂问题,同时还能解释其推理。

OpenAI首席研究官BobMc Grew称:“该模型在解决AP数学测试方面肯定比我做得更好,而我在大学时主修数学。”他说,OpenAI还用国际数学奥林匹克资格考试对o1进行了测试,虽然GPT-4o只正确解决了13%的问题,但o1的得分为83%。

“我们不能说我们解决了幻觉问题”

在被称为Codeforces竞赛的在线编程竞赛中,这个新模型达到了参与者的第89个百分位,OpenAI声称该模型的下一次更新将“在物理、化学和生物学领域具有挑战性的基准任务上表现得与博士生相似”。

与此同时,o1在很多领域的能力不如GPT-4o。它在关于世界的事实知识方面表现不佳。它也没有浏览网页或处理文件和图像的能力。不过,该公司认为它代表了一种全新的能力。它被命名为o1,表示“将计数器重置为1”。

“说实话,我认为我们传统上在命名方面很糟糕,”McGrew说。“所以我希望这是更新、更理智的名字的第一步,可以更好地向世界传达我们正在做的事情。”

但这个模型并没有思考,当然也不是人类。那么,为什么要把它设计得看起来像是人类呢?

Tworek表示,OpenAI并不认为人工智能模型思维等同于人类思维。但他表示,界面旨在展示模型如何花费更多时间处理问题并深入解决问题。“与之前的模型相比,它在某些方面感觉更人性化。”

“我认为你会发现,在很多方面,它都让人感觉有点陌生,但也有很多方面让人感觉它非常人性化,”McGrew说。该模型被赋予有限的时间来处理查询,因此它可能会说这样的话:“哦,我的时间不多了,让我快速找到答案。”在早期,在它的思维链中,它也可能看起来像是在集思广益,并说这样的话:“我可以做这个或那个,我应该怎么做?”

面向代理构建

大型语言模型并不像现在这样智能。它们本质上只是根据从大量数据中学习到的模式预测单词序列,从而为您提供答案。以ChatGPT为例,它往往会错误地声称“strawberry”这个词只有两个R,因为它没有正确地分解这个词。值得一提的是,新的o1模型确实正确回答了该查询。

据报道,OpenAI希望以惊人的1500亿美元估值筹集更多资金,其发展势头取决于更多的研究突破。该公司正在为LLM带来推理能力,因为它看到了未来自主系统或代理能够代表您做出决策并采取行动的前景。

对于人工智能研究人员来说,破解推理是迈向人类智能的重要一步。他们认为,如果一个模型的能力不仅限于模式识别,那么它就可以在医学和工程等领域取得突破。不过,目前,o1的推理能力相对较慢,不像代理,而且开发人员使用起来成本高昂。

“我们花了好几个月研究推理,因为我们认为这实际上是一个关键的突破,”麦格鲁说。“从根本上说,这是一种新的模型模式,能够解决真正困难的问题,从而达到与人类相似的智能水平。”

适合谁?

这些增强的推理能力在处理科学、编码、数学等复杂问题时特别有用。例如,医疗研究人员可以用它来对细胞测序数据进行注释,物理学家可以用它生成量子光学所需的复杂数学公式,而各个领域的开发人员可以用它构建和执行多步工作流程。

OpenAI o1-mini

o1系列在精确生成和调试复杂代码方面表现出色。为了给开发者提供更高效的解决方案,我们还推出了OpenAI o1-mini,这是一种更快、更便宜的推理模型,特别适合编码。作为一个较小的模型,o1-mini的成本比o1-preview低80%,使其成为一种强大且具性价比的解决方案,适用于需要推理但不需要广泛世界知识的应用。 

如何使用OpenAI o1

ChatGPT Plus 和 Team用户从今天开始可以在ChatGPT中访问o1模型。o1-preview和o1-mini都可以在模型选择器中手动选择,启动时,o1-preview每周消息限制为30条,o1-mini为50条。我们正在努力提高这些限制,并让ChatGPT自动选择适合特定提示的模型。

ChatGPT企业和教育用户将从下周开始可以访问这两种模型。

OpenAI还计划继续开发和发布GPT系列的模型,此外还会推出新的OpenAI o1系列。

Exit mobile version