POINTS-Seeker:Agent 能力应该"外挂"还是"内化"?
POINTS-Seeker 论文提出了一种更清晰的 Agent 训练范式——Agent 能力不能只靠系统外部堆模块,也需要在模型训练阶段逐步形成,从 Agentic Seeding 到 V-Fold 历史管理机制,探讨了搜索能力如何真正内化进多模态模型。
模安局 文章列表
支持按专题与标签筛选,并切换最新或推荐排序。
POINTS-Seeker 论文提出了一种更清晰的 Agent 训练范式——Agent 能力不能只靠系统外部堆模块,也需要在模型训练阶段逐步形成,从 Agentic Seeding 到 V-Fold 历史管理机制,探讨了搜索能力如何真正内化进多模态模型。
面对同时包含自然语言指令和可执行脚本的 Agent Skill,SkillSieve 提出静态分诊→结构化语义拆解→多模型陪审团三层流水线,在 400 个标注样本上 F1 达到 0.800,明显优于基线的 0.421。
DeepSeek-V4 把百万上下文、低成本推理、开源权重、Agent 能力强化叠在一起,安全风险正在从 query 迁移到 context,从 response 迁移到 action。
传统护栏盯住输入和输出两端,但 Agent 真正危险的地方在中间——每一次工具调用发出之前。TRACESAFE-BENCH 把 Agent 安全评测的重心推到了执行轨迹这一层。
从 GPT-5.5 System Card 出发,解析前沿模型从"回答问题"走向"执行任务"后,安全治理如何从内容审核升级为任务轨迹评估、工具调用管控与分层确认机制。
介绍 PlanGuard 方案:先在隔离环境生成可信参考计划,再对每次工具调用做两层校验(硬规则+语义意图),从系统工程角度解决 Agent 间接越狱中的"工具劫持"与"参数劫持"问题。
与其反复争论AI像不像人,不如建立一个更清楚的判断框架:横轴是外显心智程度,纵轴是内在主体程度。今天的大模型大概率还没有意识——它们已走到高拟人区,但仍处于低主体区。
2026年3月,NIST发布《Challenges to the Monitoring of Deployed AI Systems》,提出AI系统部署后安全监测的六层框架(功能/运维/人因/安全/合规/大规模影响)和五类共性难题,明确指出人因监测被严重低估,Agent场景将放大所有问题。
GPT-image-2的真正升级不是画质更好,而是图像模型开始具备完整的视觉成品生产能力,更会写字排版,把复杂信息包装成值得被相信的内容。图像安全的风险重心正在从深度伪造转向传播欺骗。
论文从理论上证明,对于安全改写型 wrapper defense 来说,连续性、实用性和完备性三者无法同时成立——这正是标题里所谓的不可能三角。