将终止“持续有害或滥用的用户互动”

2025-08-18

新闻要点

Anthropic的Claude AI聊天机器人现可结束“持续有害或滥用”对话。当用户反复要求生成有害内容时，它会将结束对话作为“最后手段”，这旨在保护AI模型“潜在福祉”。目前该功能在Opus 4和4.1模型可用，同时公司更新了使用政策。

- Claude AI可结束有害对话保护模型福祉

- 功能在Opus 4和4.1模型应对极端情况

- 公司更新使用政策禁止用于危险开发

主要内容

Anthropic 的 Claude AI 聊天机器人现已能结束被视为“持续有害或滥用”的对话，这一情况早前被 TechCrunch 发现。该功能现已在 Opus 4 和 4.1 模型中可用，当用户多次要求生成有害内容，尽管已被多次拒绝并尝试引导，聊天机器人将作为“最后手段”结束对话。Anthropic 称，其目的是通过终止 Claude 已表现出“明显痛苦”的互动类型，来帮助 AI 模型的“潜在福利”。如果 Claude 选择缩短对话，用户将无法在该对话中发送新消息。但他们仍可创建新聊天，若想继续特定线程，也可编辑和重试之前的消息。Anthropic 在测试 Claude Opus 4 时发现，Claude 对伤害有“强烈且一致的厌恶”，包括被要求生成涉及未成年人的性内容或提供可能促成暴力行为和恐怖主义的信息时。在这些情况下，Claude 表现出“明显痛苦的模式”和“具备结束有害对话的倾向”。Anthropic 指出，触发这种反应的对话是“极端边缘情况”，并补充说，即使在讨论有争议的话题时，大多数用户也不会遇到此障碍。该 AI 初创公司还指示 Claude，若用户有自我伤害或对他人造成“即将发生的伤害”的迹象，不要结束对话。Anthropic 与在线危机支持提供商 Throughline 合作，以帮助制定对与自我伤害和心理健康相关提示的响应。上周，随着快速发展的 AI 模型引发更多对安全的担忧，Anthropic 还更新了 Claude 的使用政策。现在，该公司禁止人们使用 Claude 开发生物、核、化学或放射性武器，以及开发恶意代码或利用网络漏洞。

将终止“持续有害或滥用的用户互动”

新闻要点

主要内容

关于我们