文章列表

全部文章

支持按专题与标签筛选，并切换最新或推荐排序。

POINTS-Seeker 论文提出了一种更清晰的 Agent 训练范式——Agent 能力不能只靠系统外部堆模块，也需要在模型训练阶段逐步形成，从 Agentic Seeding 到 V-Fold 历史管理机制，探讨了搜索能力如何真正内化进多模态模型。

面对同时包含自然语言指令和可执行脚本的 Agent Skill，SkillSieve 提出静态分诊→结构化语义拆解→多模型陪审团三层流水线，在 400 个标注样本上 F1 达到 0.800，明显优于基线的 0.421。

DeepSeek-V4 把百万上下文、低成本推理、开源权重、Agent 能力强化叠在一起，安全风险正在从 query 迁移到 context，从 response 迁移到 action。

传统护栏盯住输入和输出两端，但 Agent 真正危险的地方在中间——每一次工具调用发出之前。TRACESAFE-BENCH 把 Agent 安全评测的重心推到了执行轨迹这一层。

从 GPT-5.5 System Card 出发，解析前沿模型从"回答问题"走向"执行任务"后，安全治理如何从内容审核升级为任务轨迹评估、工具调用管控与分层确认机制。

介绍 PlanGuard 方案：先在隔离环境生成可信参考计划，再对每次工具调用做两层校验（硬规则+语义意图），从系统工程角度解决 Agent 间接越狱中的"工具劫持"与"参数劫持"问题。

与其反复争论AI像不像人，不如建立一个更清楚的判断框架：横轴是外显心智程度，纵轴是内在主体程度。今天的大模型大概率还没有意识——它们已走到高拟人区，但仍处于低主体区。

2026年3月，NIST发布《Challenges to the Monitoring of Deployed AI Systems》，提出AI系统部署后安全监测的六层框架（功能/运维/人因/安全/合规/大规模影响）和五类共性难题，明确指出人因监测被严重低估，Agent场景将放大所有问题。

GPT-image-2的真正升级不是画质更好，而是图像模型开始具备完整的视觉成品生产能力，更会写字排版，把复杂信息包装成值得被相信的内容。图像安全的风险重心正在从深度伪造转向传播欺骗。

论文从理论上证明，对于安全改写型 wrapper defense 来说，连续性、实用性和完备性三者无法同时成立——这正是标题里所谓的不可能三角。