壮丽人性:AI 时代如何守护人类尊严
2026 年 5 月,梵蒂冈发布了教皇利奥十四世的首份通谕《Magnifica Humanitas》,中文可以译作《壮丽人性》或《伟大的人性》。
模安局 框架
聚焦风险框架、评测体系与治理闭环,强调可复现、可解释的安全结构。
2026 年 5 月,梵蒂冈发布了教皇利奥十四世的首份通谕《Magnifica Humanitas》,中文可以译作《壮丽人性》或《伟大的人性》。
五眼联盟网络安全机构发布 Agentic AI 安全劝告书,核心不是反对企业使用 Agent,而是提醒组织必须在身份、权限、工具、上下文、审计和恢复等层面建立运行时安全基础设施。
AgentWard 提出面向自主 Agent 的五阶段生命周期安全架构,将初始化、输入、记忆、决策和执行分别纳入分层防护,并通过共享风险状态实现跨层联动。
传统护栏盯住输入和输出两端,但 Agent 真正危险的地方在中间——每一次工具调用发出之前。TRACESAFE-BENCH 把 Agent 安全评测的重心推到了执行轨迹这一层。
从 GPT-5.5 System Card 出发,解析前沿模型从"回答问题"走向"执行任务"后,安全治理如何从内容审核升级为任务轨迹评估、工具调用管控与分层确认机制。
2026年3月,NIST发布《Challenges to the Monitoring of Deployed AI Systems》,提出AI系统部署后安全监测的六层框架(功能/运维/人因/安全/合规/大规模影响)和五类共性难题,明确指出人因监测被严重低估,Agent场景将放大所有问题。
OWASP 针对 MCP(模型上下文协议)发布十大安全风险,覆盖令牌泄露、权限蔓延、工具投毒、供应链攻击、意图流劫持等核心威胁,为 AI Agent 接入外部工具的安全边界划定基线。
OWASP 把 skill 单独拎出来作为新的安全分析对象,从恶意技能、供应链妥协、过度授权到治理缺失,系统梳理了十大风险及其防护要点。
从"它能做什么、能接触什么、能持续多久"出发,提出两层分类框架与0–100安全风险评分模型,覆盖内容创作型、检索问答型、编程执行型、自主工作台型等六类智能体形态,并给出 AISearch、Manus、Cursor、Claude Code、OpenClaw 示例评分与差异化治理建议。
NIST 用 Theory of Change 构建五层因果链,评估 AI 标准从投入、制定过程到采用与长期治理目标的真实影响。