框架

安全框架与治理闭环

聚焦风险框架、评测体系与治理闭环，强调可复现、可解释的安全结构。

2026 年 5 月，梵蒂冈发布了教皇利奥十四世的首份通谕《Magnifica Humanitas》，中文可以译作《壮丽人性》或《伟大的人性》。

五眼联盟网络安全机构发布 Agentic AI 安全劝告书，核心不是反对企业使用 Agent，而是提醒组织必须在身份、权限、工具、上下文、审计和恢复等层面建立运行时安全基础设施。

AgentWard 提出面向自主 Agent 的五阶段生命周期安全架构，将初始化、输入、记忆、决策和执行分别纳入分层防护，并通过共享风险状态实现跨层联动。

传统护栏盯住输入和输出两端，但 Agent 真正危险的地方在中间——每一次工具调用发出之前。TRACESAFE-BENCH 把 Agent 安全评测的重心推到了执行轨迹这一层。

从 GPT-5.5 System Card 出发，解析前沿模型从"回答问题"走向"执行任务"后，安全治理如何从内容审核升级为任务轨迹评估、工具调用管控与分层确认机制。

2026年3月，NIST发布《Challenges to the Monitoring of Deployed AI Systems》，提出AI系统部署后安全监测的六层框架（功能/运维/人因/安全/合规/大规模影响）和五类共性难题，明确指出人因监测被严重低估，Agent场景将放大所有问题。

OWASP 针对 MCP（模型上下文协议）发布十大安全风险，覆盖令牌泄露、权限蔓延、工具投毒、供应链攻击、意图流劫持等核心威胁，为 AI Agent 接入外部工具的安全边界划定基线。

OWASP 把 skill 单独拎出来作为新的安全分析对象，从恶意技能、供应链妥协、过度授权到治理缺失，系统梳理了十大风险及其防护要点。

从"它能做什么、能接触什么、能持续多久"出发，提出两层分类框架与0–100安全风险评分模型，覆盖内容创作型、检索问答型、编程执行型、自主工作台型等六类智能体形态，并给出 AISearch、Manus、Cursor、Claude Code、OpenClaw 示例评分与差异化治理建议。

NIST 用 Theory of Change 构建五层因果链，评估 AI 标准从投入、制定过程到采用与长期治理目标的真实影响。

2026/02/04 3 分钟阅读 NIST AI标准评估框架