ContextualJailbreak:大模型越狱正在从 Prompt 攻击走向上下文攻击
ContextualJailbreak 论文指出,大模型越狱正在从单句 Prompt 攻击演化为多轮上下文诱导。攻击者通过模拟对话铺垫逐步改变模型语境,使传统输入审核与单轮红队测试暴露出明显盲区。
模安局 文章列表
支持按专题与标签筛选,并切换最新或推荐排序。
ContextualJailbreak 论文指出,大模型越狱正在从单句 Prompt 攻击演化为多轮上下文诱导。攻击者通过模拟对话铺垫逐步改变模型语境,使传统输入审核与单轮红队测试暴露出明显盲区。
五眼联盟网络安全机构发布 Agentic AI 安全劝告书,核心不是反对企业使用 Agent,而是提醒组织必须在身份、权限、工具、上下文、审计和恢复等层面建立运行时安全基础设施。
最近看到一篇很适合企业 AI 安全落地的论文,题目叫**《Positive Data Control: A Secure Architecture for LLM-Mediated Data Governance》**。
Anthropic 的 Mythos 与 OpenAI 的 GPT-5.5-Cyber 同时把网络安全能力推到前台,说明前沿模型正在从代码助手走向漏洞发现、攻防验证和能力治理的新阶段。
SafeReview 提出一种面向 AI 论文评审系统的攻防共演训练框架,用攻击模型持续生成隐藏提示注入,再用新攻击样本训练防御模型,提升长文档评审场景下的鲁棒性。
文章拆解大模型“开源”的不同层次,区分开放代码、开放权重、训练数据、训练配方和使用政策,并比较 MIT、Apache-2.0、BSD、自定义模型协议等对企业商用、微调、再分发和合规风险的影响。
文章解读 Architecture Matters for Multi-Agent Security,指出多 Agent 系统的风险会从单模型能力转移到组织结构、通信拓扑和上下文可见性,局部合理的协作链条可能导致整体安全失守。
AgentVisor 把 Agent 视为不可信 Guest,在工具调用前加入语义监控层,通过拦截、STI 审计和语义异常恢复,将提示注入防御从内容识别转向运行时控制流治理。
高权限 AIOps Agent 的风险不在于说错话,而在于执行错动作。文章解读三层运行时安全架构:意图验证、沙箱行为验证和静态合规检查。
2026年5月8日三部委联合印发《智能体规范应用与创新发展实施意见》,监管对象从大模型转向智能体,提出七层安全框架、权限边界、行为围栏、AIP协议与智能互联网等核心议题,标志着 Agent 时代治理底座正式铺底