GEPA: 反思式提示词进化如何超越强化学习
GEPA: 反思式提示词进化如何超越强化学习
论文: GEPA: Reflective Prompt Evolution Can Outperform Reinforcement Learning
作者: Lakshya A Agrawal, Shangyin Tan, Dilara Soylu 等(Berkeley 等)
会议: ICLR 2026 (Oral)
代码: https://github.com/gepa-ai/gepa
核心发现:少即是多
当所有人都在疯狂堆算力、卷强化学习时,一群来自 Berkeley 的研究者提出了一个”叛逆”的观点:自然语言反思可能比梯度下降更高效。
他们的方法 GEPA (Genetic-Pareto) 在 6 个基准任务上:
- 📈 平均比 GRPO 高 6%,最高高出 20%
- ⚡ 使用少 35 倍的 rollouts
- 🎯 比 MIPROv2 高 10% 以上(AIME-2025 上提升 12%)
问题的本质
当前 LLM 适应下游任务的主流方式是强化学习(如 GRPO),但存在根本性问题:
问题 → LLM 生成回答 → 获得标量奖励 → 梯度更新 → 重复数千次
研究者指出一个被忽视的事实:语言本身就是最丰富的学习媒介。稀疏的标量奖励 vs 自然语言的细致反馈,哪个信息密度更高?答案显而易见。
GEPA 的核心机制
GEPA 是一个提示词优化器,它彻底拥抱了语言的可解释性:
1. 采样轨迹 (Sample Trajectories)
收集 AI 系统的完整执行轨迹:
- 推理过程
- 工具调用
- 工具输出
2. 自然语言反思 (Natural Language Reflection)
这不是简单的”好/坏”二元判断,而是深度诊断:
- ❌ 诊断问题: 为什么这个回答失败了?
- 💡 提出改进: 如何修改提示词规则?
- 🧪 测试更新: 新规则是否有效?
3. Pareto 前沿融合 (Pareto Frontier Combination)
关键创新:不从单一最优解出发,而是维护一组互补的改进方案,从中挑选最佳组合。
提示词 A: 擅长数学推理
提示词 B: 擅长代码生成
提示词 C: 擅长逻辑验证
↓
融合成超级提示词
实验结果:碾压式优势
| 方法 | AIME-2025 | HotpotQA | IFBench | 平均提升 |
|---|---|---|---|---|
| GRPO | 23.4% | 45.2% | 62.1% | 基准 |
| GEPA | 35.2% | 51.8% | 71.4% | +6%~20% |
| Rollouts | 高 35x | 高 35x | 高 35x | 节省 97% |
关键洞察:Data Efficiency
GEPA 的惊人之处在于数据效率。传统 RL 需要数千次 rollout 才能学会一个任务,而 GEPA 往往只需要几十次就能超越 RL 的最终性能。
这验证了一个重要假设:高质量的自然语言反思 = 高效的学习信号
与现有方法的对比
| 方法 | 学习机制 | 是否需要梯度 | 样本效率 |
|---|---|---|---|
| GRPO | 策略梯度 | ✅ | 低 |
| MIPROv2 | 贝叶斯优化 | ❌ | 中 |
| GEPA | 语言反思 + 遗传进化 | ❌ | 极高 |
代码示例
from gepa import GEPAPromptOptimizer
# 初始化优化器
optimizer = GEPAPromptOptimizer(
base_prompt="Solve the following math problem:",
llm_client=your_llm_client
)
# 运行优化(只需少量样本)
optimized_prompt = optimizer.optimize(
training_examples=your_examples, # 几十个样本即可
num_iterations=10
)
print(f"优化后提示词: {optimized_prompt}")
对 AI 开发的启示
1. 提示词工程进入”自动化 2.0”时代
不再是人工试错,而是让 AI 自己反思和进化提示词。
2. 自然语言是终极接口
GEPA 证明了我们不需要复杂的梯度计算,语言本身就是足够强大的优化媒介。
3. 小样本学习的突破
对于资源有限的团队,GEPA 提供了一条捷径:用聪明的方法弥补算力不足。
局限与展望
当前局限
- 依赖高质量的基础模型进行反思
- 对极度复杂的任务可能需要更多迭代
未来方向
- 结合 RL 和 GEPA 的混合方法
- 扩展到多模态任务
- 实时在线提示词优化
总结
GEPA 的意义不仅在于它是一个更好的提示词优化器,更在于它重新定义了 LLM 学习的方式。
当业界沉迷于”大力出奇迹”时,GEPA 提醒我们:有时候,聪明的反思比蛮力的训练更有效。
这正是 ICLR 2026 授予其 Oral 的原因——它可能预示着一个新的范式转变。
延伸阅读:
- 📄 论文: https://arxiv.org/abs/2507.19457
- 💻 代码: https://github.com/gepa-ai/gepa
- 🏆 ICLR 2026 Oral 名单
写于 2026-02-20
关键词: Prompt Engineering, LLM Optimization, Genetic Algorithms, ICLR 2026