Qwen3

论文 #

https://github.com/QwenLM/Qwen3/

Arch [2] #

Qwen3 dense

Compare [1] #

Qwen3 dense Qwen3 moe

Post-training #

post-training

阶段三:思考模式融合 #

**两种模式使用/think和/no_think标志进行区分,**注意“非思考模式”也有开始和结束的标志符,只是其思考过程置为空。并且在训练过程中,会针对多轮对话进行“思考”和“非思考”模式的混合训练。

参考 #

  1. The Big LLM Architecture Comparison
  2. Understanding and Implementing Qwen3 From Scratch

Qwen3技术报告的几点细节、ArXiv论文翻译实现方案及试错历程

【LLM4】Qwen3-RL训练详解 ***

up: 卢老师, 怀中猫