标签 · Structured Output — Glean

06-11

用奖励函数替代标注数据：GRPO 将 Qwen3-8B 的 JSON 结构输出有效性从 62% 提升至 82%

本文是一线实操记录，作者将 DeepSeek-R1 采用的 GRPO（群体相对策略优化）方法用于一个具体任务：训练 Qwen3-8B 从发票文本中提取结构化的 JSON 字段。传统 SFT（监督微调）通过模仿范例来训练，其在 token 级别的损失函数无法有效惩罚格式错误，导致模型在结构合规性上很快触及天花板。作者的核心论点是，只要能用代码定义“正确性”（例如 JSON 能否解析且符合 schema），就可以用一个 Python 奖励函数替代标注数据，驱动模型自我对抗学习。实操中，奖励函数对不合法 JSON 给 0 分，对合法但不符合 schema 的给 0.5 分，对完全合规的给 1 分，这一中间分值提供了关键的学习梯度。训练在 Fireworks 平台的 H200 上运行，最终在 50 个模型未见过的评估样本上，schema 合规率从基线的 62% 提升至 82%，超越了 GPT-4.1 的 58%，且推理成本和延迟更低。文章适用于需要模型可靠生成结构化输出（如 SQL、API 响应、工具调用）的工程师，提供了完整的奖励函数、数据集和训练配置代码。

x.com · 12 min · AI Engineering · Fine-tuning · GRPO

Structured Output

1 条 · 按时间

用奖励函数替代标注数据：GRPO 将 Qwen3-8B 的 JSON 结构输出有效性从 62% 提升至 82%