新模型将助力人工智能转录工具升级

2025-09-08

新闻要点

2025 年阿里巴巴 Qwen 团队推出 Qwen3-ASR-Flash 模型，提升 AI 语音转录竞争力。该模型基于强大智能和海量数据训练，准确性高、功能创新，能处理多种语言及口音，还能识别音乐歌词，有望成为全球语音转录工具。

- Qwen3-ASR-Flash 模型标准中文测试错误率 3.97%

- 处理中文口音错误率 3.48% 英文 3.81% 领先竞品

- 转录歌曲歌词错误率 4.51% 远超对手

- 支持 11 种语言可精准识别语言拒绝非语音段

主要内容

AI 语音转录工具即将迎来更激烈的竞争，阿里巴巴的 Qwen 团队推出了 Qwen3 - ASR - Flash 模型。该模型基于强大的 Qwen3 - Omni 智能构建，并使用包含数千万小时语音数据的海量数据集进行训练，这不仅仅是另一个 AI 语音识别模型。团队表示，它旨在提供高度准确的性能，即使在复杂的声学环境或语言模式下也能如此。

那么，它与竞争对手相比如何呢？2025 年 8 月的测试数据显示，其表现相当出色。在标准中文的公共测试中，Qwen3 - ASR - Flash 的错误率仅为 3.97%，使 Gemini - 2.5 - Pro（8.98%）和 GPT4o - Transcribe（15.72%）相形见绌，显示出更具竞争力的 AI 语音转录工具的前景。

Qwen3 - ASR - Flash 在处理中文口音方面也表现出色，错误率为 3.48%。在英语方面，它的竞争得分达到 3.81%，再次轻松击败 Gemini 的 7.63%和 GPT4o 的 8.45%。但真正令人瞩目的是在一个出了名的棘手领域：转录音乐。在识别歌曲歌词的任务中，Qwen3 - ASR - Flash 的错误率仅为 4.51%，远优于其竞争对手。

除了令人印象深刻的准确性外，该模型还为下一代 AI 转录工具带来了一些创新功能。其中最大的变革之一是其灵活的上下文偏差。无需费力地格式化关键字列表，该系统允许用户以几乎任何格式向模型提供背景文本，以获得定制化结果。您可以提供简单的关键字列表、整个文档，甚至是两者的混乱混合。

这一过程消除了对上下文信息进行复杂预处理的需要。该模型足够智能，可以利用上下文来提高准确性；然而，即使您提供的文本完全无关，其总体性能也几乎不受影响。显然，阿里巴巴对这个 AI 模型的雄心是成为全球语音转录工具。该服务从一个涵盖 11 种语言的单一模型提供准确的转录，包括众多方言和口音。对中文的支持尤为深入，涵盖了普通话以及粤语、四川话、闽南语（福建话）和吴语等主要方言。对于英语使用者，它可以处理英式、美式和其他地区口音。其他令人印象深刻的支持语言包括法语、德语、西班牙语、意大利语、葡萄牙语、俄语、日语、韩语和阿拉伯语。总之，该模型能够准确识别正在使用的 11 种语言之一，并擅长拒绝非语音部分，如静音或背景噪音，确保比过去的 AI 语音转录工具更干净的输出。

新模型将助力人工智能转录工具升级

新闻要点

主要内容

关于我们