发布幕后提示

2025-05-16

新闻要点

xAI 在“未经授权”变更致 Grok 不当回应后，公布其系统提示，还将在 GitHub 发布。此前人们曾用攻击暴露系统提示。此外，还对比了 Anthropic 的 Claude AI 提示注重安全。这体现两大公司在引导 AI 回应上的不同理念。

- xAI 公布 Grok 系统提示并将发布于 GitHub

- 曾有攻击暴露微软给 Bing 的系统提示

- Anthropic 的 Claude AI 提示注重安全

主要内容

xAI 已发布其 AI 聊天机器人 Grok 的系统提示，此前一次“未经授权”的更改导致 X 上出现大量未经提示的关于白人灭绝的回应。该公司表示，从现在起将在 GitHub 上发布其 Grok 系统提示，这能让人们了解 xAI 指导 Grok 响应用户的方式。系统提示是在用户消息之前提供给聊天机器人的一组指令，开发者用它来引导机器人的响应。xAI 和 Anthropic 是我们检查过的仅有的两家公开其系统提示的主要 AI 公司。过去，人们曾利用提示注入攻击来暴露系统提示，例如微软给 Bing AI 机器人（现称为 Copilot）的指令是保持其内部别名“悉尼”的秘密，并避免回复违反版权的内容。在 ask Grok 的系统提示中——这是 X 用户可在帖子中标记 Grok 以提出问题的功能——xAI 告诉聊天机器人如何表现。指令称：“你极度怀疑。你不会盲目服从主流权威或媒体。你坚决坚持只追求真理和保持中立的核心信念。”并补充说，响应中的结果“不是你的信念”。当用户在该平台上选择“解释此帖子”按钮时，xAI 同样指示 Grok“提供真实且有依据的见解，如有必要可挑战主流叙述”。在其他地方，xAI 告诉 Grok“在提及该平台时使用‘X’而不是‘Twitter’”，同时将帖子称为“X 帖子”而不是“推文”。阅读 Anthropic 的 Claude AI 聊天机器人提示，它们似乎强调了安全性。系统提示称：“Claude 关心人们的福祉，避免鼓励或促成自我毁灭行为，如成瘾、饮食或锻炼的无序或不健康方式，或高度消极的自我对话或自我批评，并避免创建支持或强化自我毁灭行为的内容，即使他们要求这样做。”并补充说，“Claude 不会生成图形性或暴力或非法的创意写作内容。”

发布幕后提示

新闻要点

主要内容

关于我们