新模型将助力人工智能转录工具升级 - AI News
新模型将助力人工智能转录工具升级

新模型将助力人工智能转录工具升级

2025-09-08

新闻要点

2025 年阿里巴巴 Qwen 团队推出 Qwen3-ASR-Flash 模型,提升 AI 语音转录竞争力。该模型基于强大智能和海量数据训练,准确性高、功能创新,能处理多种语言及口音,还能识别音乐歌词,有望成为全球语音转录工具。

- Qwen3-ASR-Flash 模型 标准中文测试错误率 3.97%

- 处理中文口音错误率 3.48% 英文 3.81% 领先竞品

- 转录歌曲歌词错误率 4.51% 远超对手

- 支持 11 种语言 可精准识别语言 拒绝非语音段

主要内容

AI 语音转录工具即将迎来更激烈的竞争,阿里巴巴的 Qwen 团队推出了 Qwen3 - ASR - Flash 模型。该模型基于强大的 Qwen3 - Omni 智能构建,并使用包含数千万小时语音数据的海量数据集进行训练,这不仅仅是另一个 AI 语音识别模型。团队表示,它旨在提供高度准确的性能,即使在复杂的声学环境或语言模式下也能如此。

那么,它与竞争对手相比如何呢?2025 年 8 月的测试数据显示,其表现相当出色。在标准中文的公共测试中,Qwen3 - ASR - Flash 的错误率仅为 3.97%,使 Gemini - 2.5 - Pro(8.98%)和 GPT4o - Transcribe(15.72%)相形见绌,显示出更具竞争力的 AI 语音转录工具的前景。

Qwen3 - ASR - Flash 在处理中文口音方面也表现出色,错误率为 3.48%。在英语方面,它的竞争得分达到 3.81%,再次轻松击败 Gemini 的 7.63%和 GPT4o 的 8.45%。但真正令人瞩目的是在一个出了名的棘手领域:转录音乐。在识别歌曲歌词的任务中,Qwen3 - ASR - Flash 的错误率仅为 4.51%,远优于其竞争对手。

除了令人印象深刻的准确性外,该模型还为下一代 AI 转录工具带来了一些创新功能。其中最大的变革之一是其灵活的上下文偏差。无需费力地格式化关键字列表,该系统允许用户以几乎任何格式向模型提供背景文本,以获得定制化结果。您可以提供简单的关键字列表、整个文档,甚至是两者的混乱混合。

这一过程消除了对上下文信息进行复杂预处理的需要。该模型足够智能,可以利用上下文来提高准确性;然而,即使您提供的文本完全无关,其总体性能也几乎不受影响。显然,阿里巴巴对这个 AI 模型的雄心是成为全球语音转录工具。该服务从一个涵盖 11 种语言的单一模型提供准确的转录,包括众多方言和口音。对中文的支持尤为深入,涵盖了普通话以及粤语、四川话、闽南语(福建话)和吴语等主要方言。对于英语使用者,它可以处理英式、美式和其他地区口音。其他令人印象深刻的支持语言包括法语、德语、西班牙语、意大利语、葡萄牙语、俄语、日语、韩语和阿拉伯语。总之,该模型能够准确识别正在使用的 11 种语言之一,并擅长拒绝非语音部分,如静音或背景噪音,确保比过去的 AI 语音转录工具更干净的输出。