主要内容
本周亚马逊展示了新的人工智能技术,其中包括其针对更具对话性的语音模型,以更好地与 Gemini Live 及 OpenAI 的高级语音模式竞争,以及对其能生成视频的模型进行了更新。亚马逊称,新的 Nova Sonic 语音模型可处理实时语音处理和对话应用的人工智能语音生成。Nova Sonic 使用“统一模型架构”,亚马逊称其优于其他将独立模型相互连接以处理语音识别、语音转文本转换、响应生成以及文本转音频的方法。亚马逊表示,Nova Sonic 还能更好地检测某人的语气并提供更自然的响应。Nova Sonic 可通过亚马逊的 Bedrock 开发平台试用,该公司称其可用于制作客户服务机器人或为旅游、教育、医疗保健等多种其他行业构建人工智能代理。亚马逊 AGI 高级副总裁兼首席科学家 Rohit Prasad 向 TechCrunch 透露,Nova Sonic 的“组件”已用于亚马逊的新 Alexa Plus 助手。至于视频,亚马逊宣布了 Nova Reel 1.1,该公司称其在质量和延迟方面比 1.0 有改进,现在还能在多个六秒场景中保持一致风格,拼接成长达两分钟的完整视频。