LG EXAONE Deep:数学、科学与编程爱好者 - AI News
LG EXAONE Deep:数学、科学与编程爱好者

LG EXAONE Deep:数学、科学与编程爱好者

2025-03-18

新闻要点

LG AI Research推出的EXAONE Deep模型在多个领域展现出卓越的性能。32B模型在数学领域表现突出,在MMLU基准测试中成为韩国最佳模型,被Epoch AI列为“值得注意的AI模型”。该模型在大小不同的版本中都展示了强大的数学推理能力,且在科学推理和编程能力测试中名列前茅。此外,EXAONE Deep还提升了在一般知识理解方面的表现。这些成就不仅证明了LG在AI领域的领先地位,也为未来AI技术的创新和应用提供了有力支持。

- EXAONE Deep 32B在数学领域表现卓越,在MMLU基准测试中成为韩国最佳

- 在科学推理和编程能力测试中,EXAONE Deep 7.8B和2.4B版本均名列前茅

- EXAONE Deep增强了在一般知识理解方面的表现

主要内容

**LG AI Research发布新推理模型EXAONE Deep,卓越表现令人瞩目**

近日,LG AI Research推出了名为EXAONE Deep的推理模型,该模型在数学、科学及编程领域的复杂问题解决能力方面表现出色。公司指出,目前仅有少数组织拥有基础模型,而EXAONE Deep则旨在与这些领先模型直接竞争,展现出强大的推理能力。

在核心领域,LG AI Research致力于大幅提升EXAONE Deep的推理能力。该模型不仅能在更广泛的学科中理解和应用知识,还展现了卓越的理解力。在发布的一系列性能基准测试中,EXAONE Deep的表现令人印象深刻:在数学领域,32B模型在具有挑战性的数学基准测试中表现优异,其性能远超同类模型,尽管其规模仅为竞争对手的5%。此外,7.8B和2.4B版本也在各自模型大小的主要数学基准测试中荣获榜首。

在科学与编程领域,7.8B和2.4B版本的EXAONE Deep模型也在所有主要基准测试中占据领先地位。特别是在大规模多任务语言理解(MMLU)基准测试中,32B模型取得了83.0的高分,这是韩国国内模型中的最佳表现。

EXAONE Deep 32B模型的能力已经获得了国际认可。发布后不久,它就进入了美国非营利研究机构Epoch AI的“杰出AI模型”名单中,与它的前身EXAONE 3.5一同上榜,这使得LG成为过去两年中唯一一家在榜单上拥有模型的韩国实体。

在各项评估中,EXAONE Deep展现出非凡的数学推理能力。在所有模型大小(32B、7.8B和2.4B)的评估中,该模型都超越了全球同类大小的推理模型。例如,32B模型在一般数学能力测试中取得了94.5分,在美国数学奥林匹克资格测试(AIME 2024)中取得了90.0分。在AIME 2025测试中,该模型的表现与显著更大的671B模型DeepSeek-R1持平,这凸显了EXAONE Deep在解决复杂数学问题时的高效学习和强大逻辑推理能力。

此外,7.8B和2.4B模型也在主要基准测试中取得了优异成绩。例如,7.8B模型在MATH-500基准测试中得分为94.8分,在AIME 2025中得分为59.6分;而2.4B模型在这两项评估中的得分分别为92.3和47.9分。

在科学和编程方面,EXAONE Deep也表现出色。32B模型在GPQA Diamond测试中取得了66.1的高分,该测试评估了博士级物理学、化学和生物学的问题解决能力。在衡量编程能力的LiveCodeBench评估中,该模型得分59.5分,显示出其在这两个专业领域高级应用中的潜力。同样地,7.8B和2.4B模型也在这两个基准测试的第一名位置上延续了这一趋势。

除了专业推理能力外,EXAONE Deep在一般知识理解方面也表现出色。32B模型在MMLU基准测试中取得了83.0的令人印象深刻的成绩,这使其成为该全面评估中的顶尖国内模型。这进一步表明,EXAONE Deep的推理增强不仅限于特定领域。