用儒家"六艺"培养 Agent:从安全意识到完整智能体
Agent 研究这两年进展很快,但一个更底层的问题其实很少被系统回答:我们到底应该怎样"培养"一个 Agent?
模安局 技术研究
关注安全防护、对齐技术与风险缓释方案的工程化应用。
Agent 研究这两年进展很快,但一个更底层的问题其实很少被系统回答:我们到底应该怎样"培养"一个 Agent?
很多时候 Agent 并不是没有遵守规则,而是严格执行了一份写得不够好的规则——PolicyBank 针对的正是这个常被忽略的问题。
Agent 安全不能只盯输入输出,更要盯住执行过程、工具权限和状态变化。
很多 Agent 安全问题的根子往往是能力给多了。Aethelgard 提出四层治理框架,让 Agent 只拿到完成任务所需的最小工具集。
当 AI Agent 浏览网页时,原始 HTML 里大量展示层、工程层噪声正在消耗巨额 Token 成本。这篇文章从 SOM 语义对象模型出发,讨论 Agentic Web 时代的输入层架构与安全边界。
Web Agent 在执行任务时天然偏向"完成任务",这会削弱它对外部恶意指令的识别能力。WebAgentGuard 把安全裁决从任务执行中拆开,在 Agent 前面加一道并行运行的守门模型,把提示注入攻击成功率压到接近 0%。
POINTS-Seeker 论文提出了一种更清晰的 Agent 训练范式——Agent 能力不能只靠系统外部堆模块,也需要在模型训练阶段逐步形成,从 Agentic Seeding 到 V-Fold 历史管理机制,探讨了搜索能力如何真正内化进多模态模型。
面对同时包含自然语言指令和可执行脚本的 Agent Skill,SkillSieve 提出静态分诊→结构化语义拆解→多模型陪审团三层流水线,在 400 个标注样本上 F1 达到 0.800,明显优于基线的 0.421。
DeepSeek-V4 把百万上下文、低成本推理、开源权重、Agent 能力强化叠在一起,安全风险正在从 query 迁移到 context,从 response 迁移到 action。