
周一,中国人工智能实验室DeepSeek(杭州深度求索公司)在开放的MIT 许可下发布了其新的R1 模型系列,其最大版本包含 6710 亿个参数。该公司声称,该模型在多个数学和编码基准测试中的表现与OpenAI 的 o1模拟推理 (SR) 模型相当。
在发布主要的DeepSeek-R1-Zero和DeepSeek-R1模型的同时,DeepSeek 还发布了六个较小的“DeepSeek-R1-Distill”版本,参数范围从 15 亿到 700 亿不等。这些精简模型基于现有的开源架构(如 Qwen 和 Llama),使用完整 R1 模型生成的数据进行训练。最小版本可以在笔记本电脑上运行,而完整模型则需要更多的计算资源。
这些发布立即引起了人工智能社区的关注,因为大多数现有的开放权重模型(通常可以在本地硬件上运行和微调)在所谓的推理基准测试中都落后于 OpenAI 的 o1 等专有模型。将这些功能以 MIT 许可的模型形式提供,任何人都可以研究、修改或商业使用,这标志着公开可用的人工智能模型的可能性发生了转变。
独立人工智能研究员 Simon Willison 称:“运行它们非常有趣,看着它们思考非常有趣。” Willison 测试了一个较小的模型,并在博客上的一篇文章中描述了他的体验:“每个响应都以 <think>...</think> 伪 XML 标签开头,其中包含用于帮助生成响应的思路链”,并指出,即使是简单的提示,该模型也会在输出之前进行广泛的内部推理。
模拟推理在行动
R1 模型的工作方式与典型的大型语言模型 (LLM) 不同,它采用了业内人士所称的推理时间推理方法。它们试图在模型解决查询问题时模拟类似人类的思维链。这类可以称为“模拟推理”的模型(简称 SR 模型)是在 OpenAI 于2024 年 9 月推出其 o1 模型系列时出现的。OpenAI 在 12 月透露了一项名为“ o3 ”的重大升级。
与传统的 LLM 不同,这些 SR 模型需要额外的时间来生成响应,而这些额外的时间通常会提高涉及数学、物理和科学的任务的性能。而这个最新的开放模型正在引起人们的关注,因为它似乎很快就赶上了 OpenAI。
例如,DeepSeek报告称,R1 在多项基准测试和测试中均优于 OpenAI 的 o1,包括AIME(数学推理测试)、MATH-500(文字问题集)和SWE-bench Verified(编程评估工具)。正如我们通常提到的那样,AI 基准测试需要谨慎对待,这些结果尚未得到独立验证。
据TechCrunch报道,三家中国实验室——DeepSeek、阿里巴巴和 Moonshot AI 的Kimi——现已发布他们认为与 o1 功能相匹配的模型,其中 DeepSeek 于 11 月首次预览了 R1。
但是,如果在云托管版本中运行,新的 DeepSeek 模型会有一个问题——由于 R1 源自中国,因此它不会对某些主题(如天安门广场或台湾自治)做出回应,因为根据中国互联网法规,它必须“体现社会主义核心价值观”。这种过滤来自额外的审核层,如果该模型在中国境外本地运行,则不会出现问题。
即使存在潜在的审查,乔治梅森大学人工智能研究员 Dean Ball在 X 上写道,“DeepSeek 精简模型(r1 的较小版本)的出色表现意味着,非常有能力的推理器将继续广泛传播,并可在本地硬件上运行,远离任何自上而下的控制机制的监控。”