Anthropic 亲自下场做企业服务:当模型安全必须延伸到部署层
2025年5月,Anthropic宣布了一个令人意外的决定:联合黑石集团(Blackstone)、Hellman & Friedman和高盛(Goldman Sachs),成立一家独立的企业AI服务公司。
模安局 文章列表
支持按专题与标签筛选,并切换最新或推荐排序。
2025年5月,Anthropic宣布了一个令人意外的决定:联合黑石集团(Blackstone)、Hellman & Friedman和高盛(Goldman Sachs),成立一家独立的企业AI服务公司。
过去讨论 Agent 安全,我们更多关注提示注入、越狱、工具滥用、记忆投毒、权限越界。
过去几年,大模型越狱研究大多在回答一个问题:什么样的 prompt 能绕过模型安全机制?
最近看到一篇很有意思的论文,题目叫 《Learning to Conceal Risk: Controllable Multi-turn Red Teaming for LLMs in the Financial Domain》。
过去评价一个大模型抗越狱能力强不强,很多评测最后都会落到一个数字:ASR,也就是攻击成功率。
一篇新论文揭开了同质化多 Agent 系统的失败机制:正确答案明明出现过,却在讨论中被多数意见吞掉了。
当模型已经给出安全回复,风险却仍然可能出现在“模型输出之后、工具执行之前”