文章列表

全部文章

支持按专题与标签筛选，并切换最新或推荐排序。

ContextualJailbreak 论文指出，大模型越狱正在从单句 Prompt 攻击演化为多轮上下文诱导。攻击者通过模拟对话铺垫逐步改变模型语境，使传统输入审核与单轮红队测试暴露出明显盲区。

五眼联盟网络安全机构发布 Agentic AI 安全劝告书，核心不是反对企业使用 Agent，而是提醒组织必须在身份、权限、工具、上下文、审计和恢复等层面建立运行时安全基础设施。

最近看到一篇很适合企业 AI 安全落地的论文，题目叫**《Positive Data Control: A Secure Architecture for LLM-Mediated Data Governance》**。

Anthropic 的 Mythos 与 OpenAI 的 GPT-5.5-Cyber 同时把网络安全能力推到前台，说明前沿模型正在从代码助手走向漏洞发现、攻防验证和能力治理的新阶段。

SafeReview 提出一种面向 AI 论文评审系统的攻防共演训练框架，用攻击模型持续生成隐藏提示注入，再用新攻击样本训练防御模型，提升长文档评审场景下的鲁棒性。

文章拆解大模型“开源”的不同层次，区分开放代码、开放权重、训练数据、训练配方和使用政策，并比较 MIT、Apache-2.0、BSD、自定义模型协议等对企业商用、微调、再分发和合规风险的影响。

文章解读 Architecture Matters for Multi-Agent Security，指出多 Agent 系统的风险会从单模型能力转移到组织结构、通信拓扑和上下文可见性，局部合理的协作链条可能导致整体安全失守。

AgentVisor 把 Agent 视为不可信 Guest，在工具调用前加入语义监控层，通过拦截、STI 审计和语义异常恢复，将提示注入防御从内容识别转向运行时控制流治理。

高权限 AIOps Agent 的风险不在于说错话，而在于执行错动作。文章解读三层运行时安全架构：意图验证、沙箱行为验证和静态合规检查。

2026年5月8日三部委联合印发《智能体规范应用与创新发展实施意见》，监管对象从大模型转向智能体，提出七层安全框架、权限边界、行为围栏、AIP协议与智能互联网等核心议题，标志着 Agent 时代治理底座正式铺底