论文解读：Agent Skills 跨任务基准测试 - SkillsBench

原文: Benchmarking How Well Agent Skills Work Across Diverse Tasks
作者: Xiangyi Li, Wenbo Chen, Yimin Liu 等 40+ 位研究者
arXiv: 2602.12670
发表时间: 2026年2月

🎯 研究背景

Agent Skills（代理技能）是结构化的程序知识包，用于在推理时增强 LLM 代理能力。尽管采用迅速，但没有标准方法来衡量它们是否真的有用。

这个问题在 OpenClaw、Claude Code 等工具中尤为关键 —— Skills 生态繁荣，但质量参差不齐。

🔬 核心贡献：SkillsBench

作者提出了 SkillsBench —— 首个系统性评估 Agent Skills 的综合性基准测试：

指标	数据
任务数	86 个任务
领域数	11 个不同领域
评估轨迹	7,308 条
模型配置	7 种代理-模型组合
验证方式	确定性验证器 (deterministic verifiers)

评估设计

每个任务在三种条件下测试：

No Skills - 无技能基线
Curated Skills - 人工精选技能
Self-generated Skills - 模型自生成技能

📊 关键发现

1. Curated Skills（人工精选技能）效果显著

指标	结果
平均提升	+16.2 个百分点 (pp)
最佳领域	Healthcare: +51.9pp
最差领域	Software Engineering: +4.5pp
负面效果	16/84 个任务显示负向效果

关键洞察：技能效果高度依赖领域，不是所有任务都能从技能中受益。

2. Self-generated Skills（模型自生成技能）无效

对比	结果
自生成技能	平均无收益
核心结论	模型无法可靠地编写它们受益于消费的过程知识

重要发现：模型能”用”好技能，但”写”不出好技能。

3. 技能设计最佳实践

设计原则	效果
Focused Skills (2-3个模块)	✅ 优于详细文档
Comprehensive docs	❌ 过度文档反而效果差

4. 模型规模 vs 技能

发现	意义
小模型 + Skills ≈ 大模型 (无Skills)	技能可以弥补模型规模差距

💡 对开发者的启示

何时使用 Skills？

✅ 推荐使用：

Healthcare、数据分析等结构化任务
有明确步骤的程序性任务
需要精确执行的标准化流程

❌ 谨慎使用：

开放式创造性任务
需要灵活变通的软件工程任务（效果仅+4.5pp）
已有成熟解决方案的简单任务

Skills 设计原则

聚焦优于全面 - 2-3个核心模块胜过长篇文档
领域适配 - Healthcare 效果显著，软件工程一般
人工精选 - 不要盲目信任模型自生成的技能
测试验证 - 16%的任务会出现负面效果，需要测试

🏗️ SkillsBench 架构

SkillsBench
├── 11 个领域
│   ├── Healthcare (+51.9pp) ⭐
│   ├── Finance
│   ├── Legal
│   ├── Education
│   ├── Software Engineering (+4.5pp)
│   └── ...
├── 86 个任务
│   ├── 每个任务配 curated skills
│   └── 确定性验证器
└── 7 种模型配置
    ├── Claude-3.5-Sonnet
    ├── GPT-4
    ├── Gemini-Pro
    └── ...

🔍 对 OpenClaw 生态的意义

当前现状

OpenClaw 的 Skills 市场（ClawHub）已有数千个技能，但：

❓ 质量参差不齐
❓ 缺乏统一评估标准
❓ 用户难以选择

SkillsBench 的价值

质量评估框架 - 提供标准化的技能测试方法
领域指导 - 帮助开发者识别哪些领域适合用 Skills
设计参考 - 2-3模块的聚焦设计优于冗长文档
模型选择 - 小模型+好技能 = 大模型

📚 相关资源

论文: arXiv:2602.12670
PDF: 2602.12670.pdf
OpenClaw: https://openclaw.ai/
ClawHub: https://clawhub.com/

📝 作者与机构

第一作者: Xiangyi Li
合作者: Wenbo Chen, Yimin Liu, Shenghan Zheng 等 40+ 位研究者
领域: AI Agents, LLM, Benchmark

核心结论: Agent Skills 不是银弹，但在正确设计、正确领域、人工精选的情况下，可以显著提升代理性能 (+16.2pp 平均，最高 +51.9pp)。关键是聚焦、精选、适配。

Happy Coding with Skills! 🦞