Kimi1.5 | LLM 算法

Kimi1.5

📌 0. 背景 #

Kimi-K1.5 与 DeepSeek-R1 几乎同步发布（2025-01-20），二者推理能力均达到 OpenAI o1 水平。
Kimi-K1.5 是多模态模型；DeepSeek-R1 仅文本。
相比 DeepSeek-R1，Kimi-K1.5 技术报告披露了更多可落地的算法细节，尤其在 RL 数据构建、评估、采样方面极具参考价值。

🧱 1. 整体架构 #

采用标准三阶段流程：
Pre-training → SFT → Reinforcement Learning（RL）

kimi-k1.5-paper-reading-20250222174441801
（图源：木尧｜知乎）

🔤 2. 预训练（Pre-training） #

分三阶段：

阶段一：视觉-语言预训练 #

先训纯语言模型（LLM），再逐步加入多模态数据；
Vision tower 独立训练，初期不更新 LLM 参数；
后期图文交织数据从 0% → 30%，逐步放开 LLM 更新。

阶段二：冷却（Cooling）阶段 #

用精选 + 合成数据（QA 对）巩固推理/知识能力；
合成方式：用专有模型生成 → 拒绝采样保质量。

阶段三：长上下文激活 #

目标：支持 131,072 token 上下文；
关键技术：
- 过采样 long-context 数据：40% 全注意力 + 60% partial attention；
- 渐进训练：4k → 32k → 128k；
- RoPE base 频率设为 1,000,000（更大上下文需更高频率）。

kimi-k1.5-paper-reading-20250222201009410

→ 得到基础模型 kimi-k1.5-base。

✍️ 3. SFT 训练 #

3.1 常规 SFT #

数据构建：
- 非推理任务：人工种子集 → 模型生成多回复 → 人工排序+优化；
- 推理任务（数学/代码）：规则+奖励模型验证 + 拒绝采样（更高效准确）。

数据分布（~1M）：

类型	数量
一般问答	500k
编码	200k
数学/科学	200k
创意写作	5k
长上下文任务	20k
图文任务（图表/OCR/视觉推理等）	1M

训练细节：
- Epoch 1：seq_len=32k, lr 2e-5 → 2e-6
- Epoch 2：seq_len=128k, lr 1e-5 → 1e-6
- packing 多样本训练（提升 GPU 利用率）

🔍 3.2 Long-CoT SFT（重点①） #

目标：让模型学会人类式深度思考：
- 规划 → 评估 → 反思 → 探索
数据构造：对高质量问题，用 Prompt Engineering 生成含完整思考链的长答案；
本质仍是 SFT，差异仅在 answer 长度与结构。

🎯 4. 强化学习（RL）——核心亮点 #

4.1 RL 数据集构建原则（三大关键） #

维度	具体做法
多样性	多领域数据 + 公司自建标签系统（核心资产未公开）
难度平衡	高温采样 10 次 → 计算通过率定难度；动态更新（每次用最新 checkpoint）；课程学习：由易→难
可精确评估	移除易猜题型（多选/判断/证明题）；移除易 hack prompt：不走 CoT 也能高概率答对 → 剔除

✅ 核心原则：“答案必须可精确评估”——RL 的“宪法”。

4.2 问题定义 #

将推理建模为搜索空间优化问题：

kimi-k1.5-paper-reading-20250301143553668

固定答案题：规则判断 → reward ∈ {0, 1}
开放问答：用奖励模型打分

4.3 策略优化 #

无 Value Model：与 DeepSeek-R1 的 GRPO 一致 → 保留错误路径梯度，对提升推理能力有帮助；
长度惩罚：防过度思考，奖励随推理长度衰减：

kimi-k1.5-paper-reading-20250301161202020

4.4 采样策略 #

课程采样：按难度递进；
优先采样：按 1 − 成功率 比例采样 → 专攻短板问题。

🔥 4.5 Long2Short（重点②） #

实现 长链推理 → 短链推理 的高效迁移：

方法	说明
权重融合	Long/Short checkpoint 直接加权平均（无需训练，可直接工程复用）
最短拒绝采样	生成多条 → 选最短且正确者
长短 DPO	构建 pair：短且正确（+） vs 长/错误（−）
长度惩罚 RL	RL 阶段显式抑制冗长输出

4.6 其他亮点细节 #

4.6.1 代码 RL：自动生成测试用例 #

用 CYaRon + Kimi-k1.5 生成 → 用 10 个正确提交验证 → 通过率 ≥70% 为有效；
1000 题中 → 614 无特殊评测 → 323 题最终入训。

4.6.2 数学 RL：双奖励模型 #

类型	优势
Classic RM	输入：问题+标准答案+模型作答 → 输出标量
Chain-of-Thought RM	训练时看 CoT，效果更好（用 800k CoT+label 数据训练）

4.6.3 视觉 RL 数据三类 #

类别	作用
真实世界数据	科学题、地点猜测、图表分析 → 提升现实推理
合成视觉数据	程序生成图像 → 训练空间/几何推理
文本渲染数据	文档→图像（截图/照片）→ 提升文字密集图理解，保证跨模态一致性

4.6.4 RL 框架优化 #

训练/推理分离框架；
Rollout 采样优化 → 提升数据利用率：

kimi-k1.5-paper-reading-20250301164738438

📊 5. 实验结论 #

5.1 主要结果 #

多项 benchmark 达 o1 水平，首个追平 o1 的多模态模型：

kimi-k1.5-paper-reading-20250301165047951

Long2Short 后，Short 模型性能几乎无损：

kimi-k1.5-paper-reading-20250301165154316

5.2 自我进化：CoT 长度 ↔ 能力正相关 #

模型自发生成更长 CoT；
CoT 越长，性能越好；模型越大，提升斜率越陡：

kimi-k1.5-paper-reading-20250301165315712

5.3 课程学习显著有效 #

固定难度训练（蓝线）快速饱和；
课程学习（橙线）持续提升：

kimi-k1.5-paper-reading-20250301165633911

5.4 负样本梯度有用 #

对比 ReFT（仅用正样本）→ 含负样本策略表现更优：

kimi-k1.5-paper-reading-20250301170806060

✅ 总结：Kimi-K1.5 的三大工程可复用亮点 #

RL 数据精筛三原则（多样+动态难度+可评估）——可直接用于自建 RL pipeline；
Long2Short 迁移技术（尤其权重融合）——低成本部署轻量高能模型；
拒绝采样 + 优先采样 + 课程学习 组合拳 —— 提升训练效率与收敛质量。

作者：chaofa｜全网同名
原文链接：https://yuanchaofa.com/post/kimi-k1.5-paper-reading-notes.html

如需导出为 PDF/PPT 或提取某部分细节（如代码测试生成流程），我可进一步整理。

参考 #

以下是对《深度解读 Kimi-K1.5，真正了解 RL 数据是怎么筛选的》的结构化摘要，保留原文关键图片与核心要点，便于快速把握 Kimi-K1.5 的技术亮点与工程实践细节。

【论文解读】Kimi-k1.5：无需复杂搜索，Long Context + RL就能实现复杂推理