Glean 拾遗
最近收录

1 条 · 按时间

06-11

用奖励函数替代标注数据:GRPO 将 Qwen3-8B 的 JSON 结构输出有效性从 62% 提升至 82%

本文是一线实操记录,作者将 DeepSeek-R1 采用的 GRPO(群体相对策略优化)方法用于一个具体任务:训练 Qwen3-8B 从发票文本中提取结构化的 JSON 字段。传统 SFT(监督微调)通过模仿范例来训练,其在 token 级别的损失函数无法有效惩罚格式错误,导致模型在结构合规性上很快触及天花板。作者的核心论点是,只要能用代码定义“正确性”(例如 JSON 能否解析且符合 schema),就可以用一个 Python 奖励函数替代标注数据,驱动模型自我对抗学习。实操中,奖励函数对不合法 JSON 给 0 分,对合法但不符合 schema 的给 0.5 分,对完全合规的给 1 分,这一中间分值提供了关键的学习梯度。训练在 Fireworks 平台的 H200 上运行,最终在 50 个模型未见过的评估样本上,schema 合规率从基线的 62% 提升至 82%,超越了 GPT-4.1 的 58%,且推理成本和延迟更低。文章适用于需要模型可靠生成结构化输出(如 SQL、API 响应、工具调用)的工程师,提供了完整的奖励函数、数据集和训练配置代码。

x.com · 12 min · AI Engineering · Fine-tuning · GRPO