技术研究

安全技术与工程实践

关注安全防护、对齐技术与风险缓释方案的工程化应用。

Agent 研究这两年进展很快，但一个更底层的问题其实很少被系统回答：我们到底应该怎样"培养"一个 Agent？

很多时候 Agent 并不是没有遵守规则，而是严格执行了一份写得不够好的规则——PolicyBank 针对的正是这个常被忽略的问题。

如果评测体系只看准确率，那么模型在不确定时就会被鼓励去猜。

Agent 安全不能只盯输入输出，更要盯住执行过程、工具权限和状态变化。

很多 Agent 安全问题的根子往往是能力给多了。Aethelgard 提出四层治理框架，让 Agent 只拿到完成任务所需的最小工具集。

当 AI Agent 浏览网页时，原始 HTML 里大量展示层、工程层噪声正在消耗巨额 Token 成本。这篇文章从 SOM 语义对象模型出发，讨论 Agentic Web 时代的输入层架构与安全边界。

Web Agent 在执行任务时天然偏向"完成任务"，这会削弱它对外部恶意指令的识别能力。WebAgentGuard 把安全裁决从任务执行中拆开，在 Agent 前面加一道并行运行的守门模型，把提示注入攻击成功率压到接近 0%。

POINTS-Seeker 论文提出了一种更清晰的 Agent 训练范式——Agent 能力不能只靠系统外部堆模块，也需要在模型训练阶段逐步形成，从 Agentic Seeding 到 V-Fold 历史管理机制，探讨了搜索能力如何真正内化进多模态模型。

面对同时包含自然语言指令和可执行脚本的 Agent Skill，SkillSieve 提出静态分诊→结构化语义拆解→多模型陪审团三层流水线，在 400 个标注样本上 F1 达到 0.800，明显优于基线的 0.421。

DeepSeek-V4 把百万上下文、低成本推理、开源权重、Agent 能力强化叠在一起，安全风险正在从 query 迁移到 context，从 response 迁移到 action。