原文: Benchmarking How Well Agent Skills Work Across Diverse Tasks
作者: Xiangyi Li, Wenbo Chen, Yimin Liu 等 40+ 位研究者
arXiv: 2602.12670
发表时间: 2026年2月


🎯 研究背景

Agent Skills(代理技能)是结构化的程序知识包,用于在推理时增强 LLM 代理能力。尽管采用迅速,但没有标准方法来衡量它们是否真的有用

这个问题在 OpenClaw、Claude Code 等工具中尤为关键 —— Skills 生态繁荣,但质量参差不齐。


🔬 核心贡献:SkillsBench

作者提出了 SkillsBench —— 首个系统性评估 Agent Skills 的综合性基准测试:

指标 数据
任务数 86 个任务
领域数 11 个不同领域
评估轨迹 7,308 条
模型配置 7 种代理-模型组合
验证方式 确定性验证器 (deterministic verifiers)

评估设计

每个任务在三种条件下测试:

  1. No Skills - 无技能基线
  2. Curated Skills - 人工精选技能
  3. Self-generated Skills - 模型自生成技能

📊 关键发现

1. Curated Skills(人工精选技能)效果显著

指标 结果
平均提升 +16.2 个百分点 (pp)
最佳领域 Healthcare: +51.9pp
最差领域 Software Engineering: +4.5pp
负面效果 16/84 个任务显示负向效果

关键洞察:技能效果高度依赖领域,不是所有任务都能从技能中受益。

2. Self-generated Skills(模型自生成技能)无效

对比 结果
自生成技能 平均无收益
核心结论 模型无法可靠地编写它们受益于消费的过程知识

重要发现:模型能”用”好技能,但”写”不出好技能。

3. 技能设计最佳实践

设计原则 效果
Focused Skills (2-3个模块) ✅ 优于详细文档
Comprehensive docs ❌ 过度文档反而效果差

4. 模型规模 vs 技能

发现 意义
小模型 + Skills ≈ 大模型 (无Skills) 技能可以弥补模型规模差距

💡 对开发者的启示

何时使用 Skills?

推荐使用

  • Healthcare、数据分析等结构化任务
  • 有明确步骤的程序性任务
  • 需要精确执行的标准化流程

谨慎使用

  • 开放式创造性任务
  • 需要灵活变通的软件工程任务(效果仅+4.5pp)
  • 已有成熟解决方案的简单任务

Skills 设计原则

  1. 聚焦优于全面 - 2-3个核心模块胜过长篇文档
  2. 领域适配 - Healthcare 效果显著,软件工程一般
  3. 人工精选 - 不要盲目信任模型自生成的技能
  4. 测试验证 - 16%的任务会出现负面效果,需要测试

🏗️ SkillsBench 架构

SkillsBench
├── 11 个领域
│   ├── Healthcare (+51.9pp) ⭐
│   ├── Finance
│   ├── Legal
│   ├── Education
│   ├── Software Engineering (+4.5pp)
│   └── ...
├── 86 个任务
│   ├── 每个任务配 curated skills
│   └── 确定性验证器
└── 7 种模型配置
    ├── Claude-3.5-Sonnet
    ├── GPT-4
    ├── Gemini-Pro
    └── ...

🔍 对 OpenClaw 生态的意义

当前现状

OpenClaw 的 Skills 市场(ClawHub)已有数千个技能,但:

  • ❓ 质量参差不齐
  • ❓ 缺乏统一评估标准
  • ❓ 用户难以选择

SkillsBench 的价值

  1. 质量评估框架 - 提供标准化的技能测试方法
  2. 领域指导 - 帮助开发者识别哪些领域适合用 Skills
  3. 设计参考 - 2-3模块的聚焦设计优于冗长文档
  4. 模型选择 - 小模型+好技能 = 大模型

📚 相关资源


📝 作者与机构

第一作者: Xiangyi Li
合作者: Wenbo Chen, Yimin Liu, Shenghan Zheng 等 40+ 位研究者
领域: AI Agents, LLM, Benchmark


核心结论: Agent Skills 不是银弹,但在正确设计、正确领域、人工精选的情况下,可以显著提升代理性能 (+16.2pp 平均,最高 +51.9pp)。关键是聚焦、精选、适配


Happy Coding with Skills! 🦞