文章列表

全部文章

支持按专题与标签筛选，并切换最新或推荐排序。

2025年5月，Anthropic宣布了一个令人意外的决定：联合黑石集团（Blackstone）、Hellman & Friedman和高盛（Goldman Sachs），成立一家独立的企业AI服务公司。

2026/05/19 18 分钟阅读 AI安全

过去讨论 Agent 安全，我们更多关注提示注入、越狱、工具滥用、记忆投毒、权限越界。

2026/05/19 29 分钟阅读 AI安全智能体安全

2026年5月19日，TC260发布《人工智能应用伦理安全指引 1.0》。

2026/05/19 25 分钟阅读 AI安全 AI治理

过去几年，大模型越狱研究大多在回答一个问题：什么样的 prompt 能绕过模型安全机制？

2026/05/18 24 分钟阅读 AI安全越狱评测

最近看到一篇很有意思的论文，题目叫《Learning to Conceal Risk: Controllable Multi-turn Red Teaming for LLMs in the Financial Domain》。

2026/05/18 21 分钟阅读 AI安全越狱评测

工具，正在成为 Agent 时代最常见的能力增强方式。

2026/05/17 27 分钟阅读 AI安全智能体安全

过去评价一个大模型抗越狱能力强不强，很多评测最后都会落到一个数字：ASR，也就是攻击成功率。

2026/05/17 28 分钟阅读 AI安全越狱评测

过去谈 Agent 安全，很多讨论都会自然落到提示注入上。

2026/05/16 26 分钟阅读 AI安全智能体安全

一篇新论文揭开了同质化多 Agent 系统的失败机制：正确答案明明出现过，却在讨论中被多数意见吞掉了。

当模型已经给出安全回复，风险却仍然可能出现在“模型输出之后、工具执行之前”