双子星2.5:谷歌研发出迄今为止“最智能”的AI模型 - AI News
双子星2.5:谷歌研发出迄今为止“最智能”的AI模型

双子星2.5:谷歌研发出迄今为止“最智能”的AI模型

2025-03-26

新闻要点

Google DeepMind称Gemini 2.5是其迄今“最智能AI模型”。该模型是“思考模型”,能先推理再回应,提升性能与精度。已在多基准测试中表现出色,还将融入未来模型。用户可在AI Studio等平台体验,官方鼓励反馈以进一步优化。

- Gemini 2.5被指最智能,能先推理再生成回应

- Gemini 2.5 Pro居LMArena榜首,多方面表现佳

- Gemini 2.5基于前代优势,将在Vertex AI推出

主要内容

谷歌 DeepMind 称 Gemini 2.5 是其迄今“最智能的 AI 模型”。这一最新一代的首个模型是 Gemini 2.5 Pro 的实验版本,DeepMind 称其在广泛的基准测试中取得了最先进的成果。谷歌 DeepMind 的首席技术官 Koray Kavukcuoglu 表示,Gemini 2.5 模型是“思考模型”,这意味着它们在生成响应之前能够通过思考进行推理,从而提高性能和准确性。

Kavukcuoglu 解释说,“推理”能力不仅仅是简单的分类和预测,还包括系统分析信息、推导逻辑结论、融入上下文和细微差别,并最终做出明智决策的能力。DeepMind 一直在探索增强 AI 智能和推理能力的方法,采用了强化学习和思维链提示等技术。这为最近推出的首个思考模型 Gemini 2.0 Flash Thinking 奠定了基础。

Kavukcuoglu 表示:“现在,通过 Gemini 2.5,我们通过将大幅增强的基础模型与改进的后训练相结合,实现了新的性能水平。”谷歌计划将这些思考能力直接整合到其所有未来的模型中,使它们能够处理更复杂的问题并支持更强大的、上下文感知的智能体。

Gemini 2.5 Pro 在 LMArena 排行榜上位居榜首,被视为 DeepMind 处理复杂任务的最先进模型。截至撰写时,它在 LMArena 排行榜上以显著优势位居榜首,这是评估人类偏好的关键指标,表明这是一个非常强大的模型,具有高质量的风格:Gemini 2.5 在数学、科学、编码和推理方面是“专业的”。

Gemini 2.5 Pro 在各种需要高级推理的基准测试中表现出色,尤其在数学和科学基准测试(如 GPQA 和 AIME 2025)中领先,且不依赖于增加成本的测试时技术,如多数投票。它在 Humanity's Last Exam 上也取得了 18.8%的最先进分数,这是一个由主题专家设计的评估人类知识和推理前沿的数据集。DeepMind 非常重视编码性能,Gemini 2.5 与之前的 2.0 相比有了重大飞跃,并且仍在不断改进。2.5 Pro 在创建视觉上引人注目的 Web 应用程序和智能代码应用程序以及代码转换和编辑方面表现出色。在 SWE-Bench Verified(代理代码评估的行业标准)上,Gemini 2.5 Pro 使用自定义代理设置获得了 63.8%的分数。该模型的推理能力还使其能够通过从单行提示生成可执行代码来创建视频游戏。

Gemini 2.5 基于早期 Gemini 模型的核心优势,包括原生多模态和长上下文窗口。2.5 Pro 推出时具有 100 万个令牌的上下文窗口,计划很快将其扩展到 200 万个令牌。这使模型能够理解庞大的数据集并处理来自不同信息源(包括文本、音频、图像、视频甚至整个代码存储库)的复杂问题。

开发者和企业现在可以在谷歌 AI Studio 中开始尝试 Gemini 2.5 Pro。Gemini 高级用户也可以通过桌面和移动平台上的模型下拉菜单访问它。该模型将在未来几周内在 Vertex AI 上推出。谷歌 DeepMind 鼓励用户提供反馈,这将用于进一步增强 Gemini 的能力。