周五,OpenAI 匆忙发布了 o3-mini,以捍卫其市场地位,这是对中国初创公司DeepSeek 的 R1 模型的直接回应,该模型以极低的计算成本匹配顶级性能,在人工智能行业引起了震动。
OpenAI 在官方博客文章中表示:“我们发布了 OpenAI o3-mini,这是我们推理系列中最新、最具成本效益的模型,可在 ChatGPT 和 API 中使用。” “这个功能强大且快速的模型于 2024 年 12 月进行了预览,它突破了小型模型可以实现的界限 (...),同时保持了 OpenAI o1-mini 的低成本和低延迟。”
OpenAI 还首次向用户免费提供推理功能,同时将付费客户的每日消息限额增加两倍,从 50 条增加到 150 条,以提高新推理模型系列的使用率。
与 GPT-4o 和 GPT 系列模型不同,“o”系列 AI 模型专注于推理任务。它们的创造力较弱,但具有嵌入式思维链推理能力,这使得它们更有能力解决复杂问题、回溯错误分析并构建更好的结构代码。
在最高层次上,OpenAI 有两个主要的 AI 模型系列:生成式预训练 Transformers (GPT) 和“Omni”(o)。
- GPT 就像家庭中的艺术家:右脑类型,擅长角色扮演、对话、创意写作、总结、解释、头脑风暴、聊天等。
- O 是家里的书呆子。它不擅长讲故事,但擅长编码、解数学方程式、分析复杂问题、逐步规划推理过程、比较研究论文等。
新款 o3 mini 有三个版本——低、中、高。这些子类别将为用户提供更好的答案,以换取更多的“推理”(对于需要按代币付费的开发者来说,这更昂贵)。
OpenAI o3-mini 以效率为目标,在常识和多语言思维链方面不如 OpenAI o1-mini,但在编码或事实性等其他任务上得分更高。所有其他模型(o3-mini 中和 o3-mini 高)在每一个基准测试中都击败了 OpenAI o1-mini。
DeepSeek 的突破性成果比 OpenAI 的旗舰模型效果更好,但计算能力却只占了一小部分,这引发了大规模的科技股抛售,导致美国股市蒸发近 1 万亿美元。仅英伟达一家就蒸发了 6000 亿美元的市值,因为投资者质疑其昂贵的 AI 芯片的未来需求。
效率差距源于 DeepSeek 对模型架构的新方法。
当美国公司专注于在人工智能开发中投入更多计算能力时,DeepSeek 的团队找到了简化模型处理信息的方式,使其更加高效。当中国科技巨头阿里巴巴发布 Qwen2.5 Max 时,竞争压力加剧,Qwen2.5 Max 比 DeepSeek 使用的模型更强大,为中国人工智能创新的新浪潮开辟了道路。
OpenAI o3-mini 试图再次扩大这一差距。新模型的运行速度比其前代模型快 24%,并且在关键基准测试中与旧模型相当甚至超过旧模型,同时运行成本更低。
其定价也更具竞争力。OpenAI o3-mini 的费率(每百万输入代币 0.55 美元,每百万输出代币 4.40 美元)远高于DeepSeek 的 R1 定价(相同数量下的 0.14 美元和 2.19 美元),但它们缩小了 OpenAI 和 DeepSeek 之间的差距,与运行 OpenAI o1 收取的价格相比,价格大幅降低。
这可能是它成功的关键。OpenAI o3-mini 是闭源的,不像 DeepSeek R1 是免费的——但对于那些愿意为托管服务器付费的人来说,吸引力将根据预期用途而增加。
OpenAI o3 mini-medium 在 AIME 数学问题基准测试中得分为 79.6。DeepSeek R1 得分为 79.8,这一分数仅次于该系列中最强大的模型 OpenAI mini-o3 high,其得分为 87.3 分。
在其他基准测试中也可以看到同样的模式:衡量不同科学学科熟练程度的 GPQA 分数为 DeepSeek R1 71.5,o3-mini low 70.6,o3-mini high 79.7。R1 在Codeforces(编码任务基准)中处于第 96.3 百分位,而 o3-mini low 处于第 93 百分位,o3-mini high 处于第 97 百分位。
因此,差异是存在的,但就基准而言,根据选择用于执行任务的模型,差异可能可以忽略不计。