可信动作清单:一种防止Agent间接越狱攻击的工程实践
介绍 PlanGuard 方案:先在隔离环境生成可信参考计划,再对每次工具调用做两层校验(硬规则+语义意图),从系统工程角度解决 Agent 间接越狱中的"工具劫持"与"参数劫持"问题。
模安局 技术研究
关注安全防护、对齐技术与风险缓释方案的工程化应用。
介绍 PlanGuard 方案:先在隔离环境生成可信参考计划,再对每次工具调用做两层校验(硬规则+语义意图),从系统工程角度解决 Agent 间接越狱中的"工具劫持"与"参数劫持"问题。
与其反复争论AI像不像人,不如建立一个更清楚的判断框架:横轴是外显心智程度,纵轴是内在主体程度。今天的大模型大概率还没有意识——它们已走到高拟人区,但仍处于低主体区。
GPT-image-2的真正升级不是画质更好,而是图像模型开始具备完整的视觉成品生产能力,更会写字排版,把复杂信息包装成值得被相信的内容。图像安全的风险重心正在从深度伪造转向传播欺骗。
论文从理论上证明,对于安全改写型 wrapper defense 来说,连续性、实用性和完备性三者无法同时成立——这正是标题里所谓的不可能三角。
一句看似正常的用户请求,如何被多智能体编排器自动拆解成违反安全策略的执行链路——论文提出的语义意图碎片化(SIF)攻击,揭示了多智能体系统中最隐蔽的计划生成缺口。
本文介绍了SkillAttack自动化红队框架,它通过漏洞分析、并行攻击路径生成和反馈驱动的多轮修正,验证Agent Skill中潜在漏洞的可利用性,揭示了开放Skill生态中真实存在的安全风险。
本文对OpenClaw、AutoClaw、QClaw、KimiClaw、MaxClaw、ArkClaw六个类Claw智能体系统进行安全评测,覆盖13类攻击行为,揭示模型安全不等于智能体安全的核心结论。
基于OpenClaw的190条安全通告,本文整理出10大攻击面和六段攻击链分析框架,揭示智能体系统中跨层串联攻击的真实风险与防御启发。
当交易成本、协调成本和标准化执行成本被AI大幅压低后,一家典型的软件公司到2036年会长成什么样子?这不是一张裁员表,而是一张组织稀缺性迁移图。
当大模型从会回答变成会调用工具、接外部知识、自主规划任务,安全问题已不再是内容安全,而是系统攻击面问题,本文从攻击目标、路径和防御分层全面解析。