GEPA: 反思式提示词进化如何超越强化学习

论文: GEPA: Reflective Prompt Evolution Can Outperform Reinforcement Learning
作者: Lakshya A Agrawal, Shangyin Tan, Dilara Soylu 等(Berkeley 等)
会议: ICLR 2026 (Oral)
代码: https://github.com/gepa-ai/gepa

核心发现:少即是多

当所有人都在疯狂堆算力、卷强化学习时,一群来自 Berkeley 的研究者提出了一个”叛逆”的观点:自然语言反思可能比梯度下降更高效

他们的方法 GEPA (Genetic-Pareto) 在 6 个基准任务上:

  • 📈 平均比 GRPO 高 6%,最高高出 20%
  • 使用少 35 倍的 rollouts
  • 🎯 比 MIPROv2 高 10% 以上(AIME-2025 上提升 12%)

问题的本质

当前 LLM 适应下游任务的主流方式是强化学习(如 GRPO),但存在根本性问题:

问题 → LLM 生成回答 → 获得标量奖励 → 梯度更新 → 重复数千次

研究者指出一个被忽视的事实:语言本身就是最丰富的学习媒介。稀疏的标量奖励 vs 自然语言的细致反馈,哪个信息密度更高?答案显而易见。

GEPA 的核心机制

GEPA 是一个提示词优化器,它彻底拥抱了语言的可解释性:

1. 采样轨迹 (Sample Trajectories)

收集 AI 系统的完整执行轨迹:

  • 推理过程
  • 工具调用
  • 工具输出

2. 自然语言反思 (Natural Language Reflection)

这不是简单的”好/坏”二元判断,而是深度诊断:

  • 诊断问题: 为什么这个回答失败了?
  • 💡 提出改进: 如何修改提示词规则?
  • 🧪 测试更新: 新规则是否有效?

3. Pareto 前沿融合 (Pareto Frontier Combination)

关键创新:不从单一最优解出发,而是维护一组互补的改进方案,从中挑选最佳组合。

提示词 A: 擅长数学推理
提示词 B: 擅长代码生成
提示词 C: 擅长逻辑验证
        ↓
融合成超级提示词

实验结果:碾压式优势

方法 AIME-2025 HotpotQA IFBench 平均提升
GRPO 23.4% 45.2% 62.1% 基准
GEPA 35.2% 51.8% 71.4% +6%~20%
Rollouts 高 35x 高 35x 高 35x 节省 97%

关键洞察:Data Efficiency

GEPA 的惊人之处在于数据效率。传统 RL 需要数千次 rollout 才能学会一个任务,而 GEPA 往往只需要几十次就能超越 RL 的最终性能。

这验证了一个重要假设:高质量的自然语言反思 = 高效的学习信号

与现有方法的对比

方法 学习机制 是否需要梯度 样本效率
GRPO 策略梯度
MIPROv2 贝叶斯优化
GEPA 语言反思 + 遗传进化 极高

代码示例

from gepa import GEPAPromptOptimizer

# 初始化优化器
optimizer = GEPAPromptOptimizer(
    base_prompt="Solve the following math problem:",
    llm_client=your_llm_client
)

# 运行优化(只需少量样本)
optimized_prompt = optimizer.optimize(
    training_examples=your_examples,  # 几十个样本即可
    num_iterations=10
)

print(f"优化后提示词: {optimized_prompt}")

对 AI 开发的启示

1. 提示词工程进入”自动化 2.0”时代

不再是人工试错,而是让 AI 自己反思和进化提示词。

2. 自然语言是终极接口

GEPA 证明了我们不需要复杂的梯度计算,语言本身就是足够强大的优化媒介

3. 小样本学习的突破

对于资源有限的团队,GEPA 提供了一条捷径:用聪明的方法弥补算力不足

局限与展望

当前局限

  • 依赖高质量的基础模型进行反思
  • 对极度复杂的任务可能需要更多迭代

未来方向

  • 结合 RL 和 GEPA 的混合方法
  • 扩展到多模态任务
  • 实时在线提示词优化

总结

GEPA 的意义不仅在于它是一个更好的提示词优化器,更在于它重新定义了 LLM 学习的方式

当业界沉迷于”大力出奇迹”时,GEPA 提醒我们:有时候,聪明的反思比蛮力的训练更有效

这正是 ICLR 2026 授予其 Oral 的原因——它可能预示着一个新的范式转变。


延伸阅读:

  • 📄 论文: https://arxiv.org/abs/2507.19457
  • 💻 代码: https://github.com/gepa-ai/gepa
  • 🏆 ICLR 2026 Oral 名单

写于 2026-02-20
关键词: Prompt Engineering, LLM Optimization, Genetic Algorithms, ICLR 2026