技术研究 推荐 DeepSeek-R1的内容安全评测体系与测评结果(Nature,2025.9) 基于Nature文章系统分析DeepSeek的内容安全评测框架、数据集构建、判定标准和风控机制,以及多语种和越狱鲁棒性 2025/09/20 12 分钟阅读 DeepSeekR1 大模型安全
技术研究 28种LLM越狱攻击方法汇总(2025.8) 对大模型常见越狱攻击方法进行系统分类,汇总6大类、28种具体手段,并对提示注入与越狱的差异做对比。 2025/08/01 10 分钟阅读 越狱攻击 提示注入 LLM安全