LG EXAONE Deep：数学、科学与编程爱好者

2025-03-18

新闻要点

LG AI Research推出的EXAONE Deep模型在多个领域展现出卓越的性能。32B模型在数学领域表现突出，在MMLU基准测试中成为韩国最佳模型，被Epoch AI列为“值得注意的AI模型”。该模型在大小不同的版本中都展示了强大的数学推理能力，且在科学推理和编程能力测试中名列前茅。此外，EXAONE Deep还提升了在一般知识理解方面的表现。这些成就不仅证明了LG在AI领域的领先地位，也为未来AI技术的创新和应用提供了有力支持。

- EXAONE Deep 32B在数学领域表现卓越，在MMLU基准测试中成为韩国最佳

- 在科学推理和编程能力测试中，EXAONE Deep 7.8B和2.4B版本均名列前茅

- EXAONE Deep增强了在一般知识理解方面的表现

主要内容

**LG AI Research发布新推理模型EXAONE Deep，卓越表现令人瞩目**

近日，LG AI Research推出了名为EXAONE Deep的推理模型，该模型在数学、科学及编程领域的复杂问题解决能力方面表现出色。公司指出，目前仅有少数组织拥有基础模型，而EXAONE Deep则旨在与这些领先模型直接竞争，展现出强大的推理能力。

在核心领域，LG AI Research致力于大幅提升EXAONE Deep的推理能力。该模型不仅能在更广泛的学科中理解和应用知识，还展现了卓越的理解力。在发布的一系列性能基准测试中，EXAONE Deep的表现令人印象深刻：在数学领域，32B模型在具有挑战性的数学基准测试中表现优异，其性能远超同类模型，尽管其规模仅为竞争对手的5%。此外，7.8B和2.4B版本也在各自模型大小的主要数学基准测试中荣获榜首。

在科学与编程领域，7.8B和2.4B版本的EXAONE Deep模型也在所有主要基准测试中占据领先地位。特别是在大规模多任务语言理解（MMLU）基准测试中，32B模型取得了83.0的高分，这是韩国国内模型中的最佳表现。

EXAONE Deep 32B模型的能力已经获得了国际认可。发布后不久，它就进入了美国非营利研究机构Epoch AI的“杰出AI模型”名单中，与它的前身EXAONE 3.5一同上榜，这使得LG成为过去两年中唯一一家在榜单上拥有模型的韩国实体。

在各项评估中，EXAONE Deep展现出非凡的数学推理能力。在所有模型大小（32B、7.8B和2.4B）的评估中，该模型都超越了全球同类大小的推理模型。例如，32B模型在一般数学能力测试中取得了94.5分，在美国数学奥林匹克资格测试（AIME 2024）中取得了90.0分。在AIME 2025测试中，该模型的表现与显著更大的671B模型DeepSeek-R1持平，这凸显了EXAONE Deep在解决复杂数学问题时的高效学习和强大逻辑推理能力。

此外，7.8B和2.4B模型也在主要基准测试中取得了优异成绩。例如，7.8B模型在MATH-500基准测试中得分为94.8分，在AIME 2025中得分为59.6分；而2.4B模型在这两项评估中的得分分别为92.3和47.9分。

在科学和编程方面，EXAONE Deep也表现出色。32B模型在GPQA Diamond测试中取得了66.1的高分，该测试评估了博士级物理学、化学和生物学的问题解决能力。在衡量编程能力的LiveCodeBench评估中，该模型得分59.5分，显示出其在这两个专业领域高级应用中的潜力。同样地，7.8B和2.4B模型也在这两个基准测试的第一名位置上延续了这一趋势。

除了专业推理能力外，EXAONE Deep在一般知识理解方面也表现出色。32B模型在MMLU基准测试中取得了83.0的令人印象深刻的成绩，这使其成为该全面评估中的顶尖国内模型。这进一步表明，EXAONE Deep的推理增强不仅限于特定领域。

LG EXAONE Deep：数学、科学与编程爱好者

新闻要点

主要内容

关于我们