杭州深度求索公司发布推理模型DeepSeek R1，可以媲美OpenAI o1

周一，中国人工智能实验室DeepSeek（杭州深度求索公司）在开放的MIT 许可下发布了其新的R1 模型系列，其最大版本包含 6710 亿个参数。该公司声称，该模型在多个数学和编码基准测试中的表现与OpenAI 的 o1模拟推理 (SR) 模型相当。

在发布主要的DeepSeek-R1-Zero和DeepSeek-R1模型的同时，DeepSeek 还发布了六个较小的“DeepSeek-R1-Distill”版本，参数范围从 15 亿到 700 亿不等。这些精简模型基于现有的开源架构（如 Qwen 和 Llama），使用完整 R1 模型生成的数据进行训练。最小版本可以在笔记本电脑上运行，而完整模型则需要更多的计算资源。

这些发布立即引起了人工智能社区的关注，因为大多数现有的开放权重模型（通常可以在本地硬件上运行和微调）在所谓的推理基准测试中都落后于 OpenAI 的 o1 等专有模型。将这些功能以 MIT 许可的模型形式提供，任何人都可以研究、修改或商业使用，这标志着公开可用的人工智能模型的可能性发生了转变。

独立人工智能研究员 Simon Willison 称：“运行它们非常有趣，看着它们思考非常有趣。” Willison 测试了一个较小的模型，并在博客上的一篇文章中描述了他的体验：“每个响应都以 <think>...</think> 伪 XML 标签开头，其中包含用于帮助生成响应的思路链”，并指出，即使是简单的提示，该模型也会在输出之前进行广泛的内部推理。

模拟推理在行动

R1 模型的工作方式与典型的大型语言模型 (LLM) 不同，它采用了业内人士所称的推理时间推理方法。它们试图在模型解决查询问题时模拟类似人类的思维链。这类可以称为“模拟推理”的模型（简称 SR 模型）是在 OpenAI 于2024 年 9 月推出其 o1 模型系列时出现的。OpenAI 在 12 月透露了一项名为“ o3 ”的重大升级。

与传统的 LLM 不同，这些 SR 模型需要额外的时间来生成响应，而这些额外的时间通常会提高涉及数学、物理和科学的任务的性能。而这个最新的开放模型正在引起人们的关注，因为它似乎很快就赶上了 OpenAI。

例如，DeepSeek报告称，R1 在多项基准测试和测试中均优于 OpenAI 的 o1，包括AIME（数学推理测试）、MATH-500（文字问题集）和SWE-bench Verified（编程评估工具）。正如我们通常提到的那样，AI 基准测试需要谨慎对待，这些结果尚未得到独立验证。

据TechCrunch报道，三家中国实验室——DeepSeek、阿里巴巴和 Moonshot AI 的Kimi——现已发布他们认为与 o1 功能相匹配的模型，其中 DeepSeek 于 11 月首次预览了 R1。

但是，如果在云托管版本中运行，新的 DeepSeek 模型会有一个问题——由于 R1 源自中国，因此它不会对某些主题（如天安门广场或台湾自治）做出回应，因为根据中国互联网法规，它必须“体现社会主义核心价值观”。这种过滤来自额外的审核层，如果该模型在中国境外本地运行，则不会出现问题。

即使存在潜在的审查，乔治梅森大学人工智能研究员 Dean Ball在 X 上写道，“DeepSeek 精简模型（r1 的较小版本）的出色表现意味着，非常有能力的推理器将继续广泛传播，并可在本地硬件上运行，远离任何自上而下的控制机制的监控。”

杭州深度求索公司发布推理模型DeepSeek R1，可以媲美OpenAI o1

模拟推理在行动

相关推荐

评论抢沙发

科技圈动态，尽在圈小蛙

官方TG频道

简繁切换

回顶部

模拟推理在行动

相关推荐

评论 抢沙发

科技圈动态，尽在圈小蛙

官方TG频道

简繁切换

回顶部

评论抢沙发