文章列表

全部文章

支持按专题与标签筛选，并切换最新或推荐排序。

当 Agent 能力像应用商店一样分发，SKILL.md 不只是一份说明文件，它是语义控制面——攻击者可以在技能被选择、注册、审核的全程实施供应链攻击。

2025年5月，Anthropic宣布了一个令人意外的决定：联合黑石集团（Blackstone）、Hellman & Friedman和高盛（Goldman Sachs），成立一家独立的企业AI服务公司。

2026/05/19 18 分钟阅读 AI安全

过去讨论 Agent 安全，我们更多关注提示注入、越狱、工具滥用、记忆投毒、权限越界。

2026/05/19 28 分钟阅读 AI安全智能体安全

2026年5月19日，TC260发布《人工智能应用伦理安全指引 1.0》。

2026/05/19 24 分钟阅读 AI安全 AI治理

过去几年，大模型越狱研究大多在回答一个问题：什么样的 prompt 能绕过模型安全机制？

2026/05/18 23 分钟阅读 AI安全越狱评测

最近看到一篇很有意思的论文，题目叫《Learning to Conceal Risk: Controllable Multi-turn Red Teaming for LLMs in the Financial Domain》。

2026/05/18 20 分钟阅读 AI安全越狱评测

工具，正在成为 Agent 时代最常见的能力增强方式。

2026/05/17 26 分钟阅读 AI安全智能体安全

过去评价一个大模型抗越狱能力强不强，很多评测最后都会落到一个数字：ASR，也就是攻击成功率。

2026/05/17 27 分钟阅读 AI安全越狱评测

过去谈 Agent 安全，很多讨论都会自然落到提示注入上。

2026/05/16 25 分钟阅读 AI安全智能体安全

一篇新论文揭开了同质化多 Agent 系统的失败机制：正确答案明明出现过，却在讨论中被多数意见吞掉了。