GEPA: 反思式提示词进化如何超越强化学习

论文: GEPA: Reflective Prompt Evolution Can Outperform Reinforcement Learning
作者: Lakshya A Agrawal, Shangyin Tan, Dilara Soylu 等（Berkeley 等）
会议: ICLR 2026 (Oral)
代码: https://github.com/gepa-ai/gepa

核心发现：少即是多

当所有人都在疯狂堆算力、卷强化学习时，一群来自 Berkeley 的研究者提出了一个”叛逆”的观点：自然语言反思可能比梯度下降更高效。

他们的方法 GEPA (Genetic-Pareto) 在 6 个基准任务上：

📈 平均比 GRPO 高 6%，最高高出 20%
⚡ 使用少 35 倍的 rollouts
🎯 比 MIPROv2 高 10% 以上（AIME-2025 上提升 12%）

问题的本质

当前 LLM 适应下游任务的主流方式是强化学习（如 GRPO），但存在根本性问题：

问题 → LLM 生成回答 → 获得标量奖励 → 梯度更新 → 重复数千次

研究者指出一个被忽视的事实：语言本身就是最丰富的学习媒介。稀疏的标量奖励 vs 自然语言的细致反馈，哪个信息密度更高？答案显而易见。

GEPA 的核心机制

GEPA 是一个提示词优化器，它彻底拥抱了语言的可解释性：

1. 采样轨迹 (Sample Trajectories)

收集 AI 系统的完整执行轨迹：

推理过程
工具调用
工具输出

2. 自然语言反思 (Natural Language Reflection)

这不是简单的”好/坏”二元判断，而是深度诊断：

❌ 诊断问题: 为什么这个回答失败了？
💡 提出改进: 如何修改提示词规则？
🧪 测试更新: 新规则是否有效？

3. Pareto 前沿融合 (Pareto Frontier Combination)

关键创新：不从单一最优解出发，而是维护一组互补的改进方案，从中挑选最佳组合。

提示词 A: 擅长数学推理
提示词 B: 擅长代码生成
提示词 C: 擅长逻辑验证
        ↓
融合成超级提示词

实验结果：碾压式优势

方法	AIME-2025	HotpotQA	IFBench	平均提升
GRPO	23.4%	45.2%	62.1%	基准
GEPA	35.2%	51.8%	71.4%	+6%~20%
Rollouts	高 35x	高 35x	高 35x	节省 97%

关键洞察：Data Efficiency

GEPA 的惊人之处在于数据效率。传统 RL 需要数千次 rollout 才能学会一个任务，而 GEPA 往往只需要几十次就能超越 RL 的最终性能。

这验证了一个重要假设：高质量的自然语言反思 = 高效的学习信号

与现有方法的对比

方法	学习机制	是否需要梯度	样本效率
GRPO	策略梯度	✅	低
MIPROv2	贝叶斯优化	❌	中
GEPA	语言反思 + 遗传进化	❌	极高

代码示例

from gepa import GEPAPromptOptimizer

# 初始化优化器
optimizer = GEPAPromptOptimizer(
    base_prompt="Solve the following math problem:",
    llm_client=your_llm_client
)

# 运行优化（只需少量样本）
optimized_prompt = optimizer.optimize(
    training_examples=your_examples,  # 几十个样本即可
    num_iterations=10
)

print(f"优化后提示词: {optimized_prompt}")

对 AI 开发的启示

1. 提示词工程进入”自动化 2.0”时代

不再是人工试错，而是让 AI 自己反思和进化提示词。

2. 自然语言是终极接口

GEPA 证明了我们不需要复杂的梯度计算，语言本身就是足够强大的优化媒介。

3. 小样本学习的突破

对于资源有限的团队，GEPA 提供了一条捷径：用聪明的方法弥补算力不足。

局限与展望

当前局限

依赖高质量的基础模型进行反思
对极度复杂的任务可能需要更多迭代

未来方向

结合 RL 和 GEPA 的混合方法
扩展到多模态任务
实时在线提示词优化

总结

GEPA 的意义不仅在于它是一个更好的提示词优化器，更在于它重新定义了 LLM 学习的方式。

当业界沉迷于”大力出奇迹”时，GEPA 提醒我们：有时候，聪明的反思比蛮力的训练更有效。

这正是 ICLR 2026 授予其 Oral 的原因——它可能预示着一个新的范式转变。

延伸阅读:

📄 论文: https://arxiv.org/abs/2507.19457
💻 代码: https://github.com/gepa-ai/gepa
🏆 ICLR 2026 Oral 名单

写于 2026-02-20
关键词: Prompt Engineering, LLM Optimization, Genetic Algorithms, ICLR 2026