技术研究

安全技术与工程实践

关注安全防护、对齐技术与风险缓释方案的工程化应用。

介绍 PlanGuard 方案：先在隔离环境生成可信参考计划，再对每次工具调用做两层校验（硬规则+语义意图），从系统工程角度解决 Agent 间接越狱中的"工具劫持"与"参数劫持"问题。

与其反复争论AI像不像人，不如建立一个更清楚的判断框架：横轴是外显心智程度，纵轴是内在主体程度。今天的大模型大概率还没有意识——它们已走到高拟人区，但仍处于低主体区。

GPT-image-2的真正升级不是画质更好，而是图像模型开始具备完整的视觉成品生产能力，更会写字排版，把复杂信息包装成值得被相信的内容。图像安全的风险重心正在从深度伪造转向传播欺骗。

论文从理论上证明，对于安全改写型 wrapper defense 来说，连续性、实用性和完备性三者无法同时成立——这正是标题里所谓的不可能三角。

一句看似正常的用户请求，如何被多智能体编排器自动拆解成违反安全策略的执行链路——论文提出的语义意图碎片化（SIF）攻击，揭示了多智能体系统中最隐蔽的计划生成缺口。

本文介绍了SkillAttack自动化红队框架，它通过漏洞分析、并行攻击路径生成和反馈驱动的多轮修正，验证Agent Skill中潜在漏洞的可利用性，揭示了开放Skill生态中真实存在的安全风险。

本文对OpenClaw、AutoClaw、QClaw、KimiClaw、MaxClaw、ArkClaw六个类Claw智能体系统进行安全评测，覆盖13类攻击行为，揭示模型安全不等于智能体安全的核心结论。

基于OpenClaw的190条安全通告，本文整理出10大攻击面和六段攻击链分析框架，揭示智能体系统中跨层串联攻击的真实风险与防御启发。

当交易成本、协调成本和标准化执行成本被AI大幅压低后，一家典型的软件公司到2036年会长成什么样子？这不是一张裁员表，而是一张组织稀缺性迁移图。

当大模型从会回答变成会调用工具、接外部知识、自主规划任务，安全问题已不再是内容安全，而是系统攻击面问题，本文从攻击目标、路径和防御分层全面解析。