大模型真正拉开差距的地方在预训练之后:一条后训练链路的完整拆解
这篇长文系统梳理了大模型训练的全链路,核心观点是:2026年模型效果的真正差距并不在预训练阶段,而在后训练、评测、奖励、Agent训练与蒸馏等「后半段」。文章以工序化的方式拆解了从预训练底座到数据配方、系统架构、四阶段后训练流水线(SFT冷启动—GRPO推理RL—拒绝采样微调—对齐RL)、Grader/Reward设计、Agent训练(包括PARL架构与Meta-Harness优化)、蒸馏部署等完整流程。其中着重分析了DeepSeek-R1的公开配方、GRPO相比PPO的工程优势、PRM与ORM的优劣、以及Agent从优化答案扩展到优化环境Harness程序的趋势。适合需要理解大模型能力来源于哪些具体工程环节的系统/数据/工具工程师。