/

LIVE

文章列表

全部文章

支持按专题与标签筛选，并切换最新或推荐排序。

排序最新推荐

Agent Skill 八类风险与三层防护架构（Snyk，2026.2）

Snyk 报告扫描 3984 个 Agent Skill，发现八类安全风险（提示注入、恶意代码、可疑下载、凭证处理、密钥泄露、第三方内容、远程执行、高危权限），并提出安装前检测、运行时管控、生态治理三层防护架构，指出 Skill 已成为组合攻击的新型供应链入口。

2026/06/05 16 分钟阅读 Skill安全供应链攻击提示注入 Snyk

从轨迹诊断到在线护栏：AgentDoG 1.5 与 Agent 安全的新阶段

AgentDoG 1.5 在三维风险分类框架基础上扩展了 OpenClaw 和 Codex-style Agent 新执行场景，发布 ATBench-Claw 与 ATBench-Codex 评测集，训练了 0.8B–8B 可部署的轻量安全诊断模型，并引入在线 Pre-Reply 护栏，将 Agent 安全从轨迹诊断推进到运行时治理。

2026/06/05 16 分钟阅读 AgentDoG Agent安全安全评测轻量模型

Beyond Zero：Google 正在重写 Agent 时代的企业零信任架构

Google Beyond Zero 提出 Agent 时代企业安全新范式，将零信任从应用级访问控制下沉到动作级上下文判断，引入企业安全世界模型、意图验证、行为约束和 Agent 身份管理，构建四层架构应对 AI Agent 带来的新攻击面。

2026/06/05 14 分钟阅读零信任 Google 企业安全 BeyondCorp

SandboxBench：当 Agent 拿到 Shell，沙箱还能关住它吗？

SandboxBench 提出首个专门评测 AI Agent 沙箱突破能力的框架，用 27 个 Docker/Kubernetes 挑战测试 Agent 能否完成容器逃逸、数据外传、横向移动、持久化和自我复制，填补了传统工具只能发现风险点、无法验证 Agent 实际利用能力的评测空白。

2026/06/05 13 分钟阅读 Agent安全沙箱逃逸容器安全安全评测

前沿 AI 治理框架：四类风险、三级分级与四层防护（OpenAI，2026.5）

OpenAI 发布前沿治理框架，把前沿模型上线条件从能不能安全回答问题升级为能不能证明高能力模型应该被允许上线

2026/06/03 15 分钟阅读 AI治理前沿AI OpenAI AI安全框架

RoboJailBench：18类具身智能风险评测框架

具身智能的越狱不只是模型说出不该说的话，而是机器人真的撞向行人或夹伤手指——RoboJailBench 提出首个覆盖18类物理风险的评测基准

2026/06/02 14 分钟阅读 AI安全具身智能越狱攻击机器人安全

Agent 社工攻击：数字信任机制的崩塌与重建

Agentic AI 打破了高逼真欺骗与大规模攻击不能兼得的隐含约束——信任信号正在失效，防御重心必须从验证来源转向验证行为

2026/06/01 17 分钟阅读 AI安全社工攻击 Agent安全数字信任

从 EDR 到 ADR：Agent 安全正在进入检测响应时代

Agent 威胁不在输入输出层，而藏在工具调用链路里——ADR 补上 EDR/XDR 看不见的 Agent 语义遥测盲区，让企业 Agent 安全进入检测响应时代

2026/05/31 14 分钟阅读 AI安全 Agent安全检测响应 MCP

超越二元道德判断：在 AI 中建模伦理多元主义

AI 的伦理判断不应被简化为二元分类，而应建模为结果主义、义务论与美德伦理三维分布——让 AI 在灰区场景暴露结论背后的价值结构

2026/05/30 17 分钟阅读 AI安全 AI伦理价值对齐

Agent IAM 系列（二）：Agent 有权限，不代表它该这么做

Agent 时代的 IAM 不能只回答谁能访问什么，还要回答它为什么访问——Purpose 是声明的职责边界，Intent 是运行时意图，两者必须同时治理

2026/05/29 15 分钟阅读 AI安全 Agent安全 IAM