主要内容
AI 语音转录工具即将迎来更激烈的竞争,阿里巴巴的 Qwen 团队推出了 Qwen3 - ASR - Flash 模型。该模型基于强大的 Qwen3 - Omni 智能构建,并使用包含数千万小时语音数据的海量数据集进行训练,这不仅仅是另一个 AI 语音识别模型。团队表示,它旨在提供高度准确的性能,即使在复杂的声学环境或语言模式下也能如此。
那么,它与竞争对手相比如何呢?2025 年 8 月的测试数据显示,其表现相当出色。在标准中文的公共测试中,Qwen3 - ASR - Flash 的错误率仅为 3.97%,使 Gemini - 2.5 - Pro(8.98%)和 GPT4o - Transcribe(15.72%)相形见绌,显示出更具竞争力的 AI 语音转录工具的前景。
Qwen3 - ASR - Flash 在处理中文口音方面也表现出色,错误率为 3.48%。在英语方面,它的竞争得分达到 3.81%,再次轻松击败 Gemini 的 7.63%和 GPT4o 的 8.45%。但真正令人瞩目的是在一个出了名的棘手领域:转录音乐。在识别歌曲歌词的任务中,Qwen3 - ASR - Flash 的错误率仅为 4.51%,远优于其竞争对手。
除了令人印象深刻的准确性外,该模型还为下一代 AI 转录工具带来了一些创新功能。其中最大的变革之一是其灵活的上下文偏差。无需费力地格式化关键字列表,该系统允许用户以几乎任何格式向模型提供背景文本,以获得定制化结果。您可以提供简单的关键字列表、整个文档,甚至是两者的混乱混合。
这一过程消除了对上下文信息进行复杂预处理的需要。该模型足够智能,可以利用上下文来提高准确性;然而,即使您提供的文本完全无关,其总体性能也几乎不受影响。显然,阿里巴巴对这个 AI 模型的雄心是成为全球语音转录工具。该服务从一个涵盖 11 种语言的单一模型提供准确的转录,包括众多方言和口音。对中文的支持尤为深入,涵盖了普通话以及粤语、四川话、闽南语(福建话)和吴语等主要方言。对于英语使用者,它可以处理英式、美式和其他地区口音。其他令人印象深刻的支持语言包括法语、德语、西班牙语、意大利语、葡萄牙语、俄语、日语、韩语和阿拉伯语。总之,该模型能够准确识别正在使用的 11 种语言之一,并擅长拒绝非语音部分,如静音或背景噪音,确保比过去的 AI 语音转录工具更干净的输出。