2026年数据公司发展方向

整理自 Sean Cai (@SeanZCai) 在 X/Twitter 的深度分析文章

原文: Where Data Companies are heading in 2026


核心观点

RLaaS (Reinforcement Learning as a Service) 正在经历范式转变。主观自服务后训练基础设施成为新的竞争焦点,这对数据公司的生存模式提出了全新要求。


RLaaS 市场的关键转折

类型二分法

数据公司正分裂为两个阵营:

类型 特点 代表公司
研究优先型 定义新的数据形态,引领研究方向 Fleet (长周期 & 品味)
规模优先型 快速提供大量数据 Handshake, Invisible, Turing, Scale, Surge

中间地带的消亡

既非研究优先、也非规模优先的公司正在被淘汰:

  • ❌ 无法产出足够的人为设计数据量
  • ❌ 缺乏研究 DNA,无法预判研究方向的变化
  • ❌ 既无法与 Fleet 这样的创新者竞争,也无法与 Scale 这样的规模化提供者竞争
  • 📉 许多公司正在被大型规模优先型玩家收购

市场驱动的本质:研究 Zeitgeist

支出的本质

数据支出的核心驱动力:研究方向的任意变化

“如果没有预判研究方向任意变化的能力,以及’漂浮在研究时代精神之上’的能力,最终会过度优化某种类型的数据生产和基础设施建设——而这些在3个月后就会过时。”

过时的例子

  • 计算机使用基础设施 (computer use infra)
  • 一次性编码任务 (one-shot coding tasks)
  • 原因:长周期规范 (long horizon specs) 的标准化

企业后训练的新机遇

持续存在的经济层

模型与企业应用之间,存在持久的经济活动层:

障碍 解决方案
本地部署和监管行业无法直接使用云端模型 需要后训练适配
需要主观判断的定制工作流程 后训练达到可靠性阈值
后训练门槛降低 O1, R1 等工具普及
最后一公里实施瓶颈 FDE (Frontend-Driven Engineering) 团队建设
大型企业 ML 团队建设 Microsoft、Amazon 开始内部后训练

关键信号

Microsoft 开始内部后训练——这是5个月前很多人预料不到的。


可验证性框架

主观工作流程的特征

企业的定制工作流程具有高度主观性,与组织文化紧密绑定:

  • 低真实性 (low veracity)
  • 验证扩散 (proliferation of verification)

这意味着:极其难以验证

图表说明

Sean Cai 提供了一个验证性矩阵,展示不同类型工作的可验证程度。


主观自服务后训练基础设施

新兴模式

这是许多未公开的新 neo-labs 的明确目标,最公开的代表:

  • Applied Compute
  • Mercor
  • 开源项目: 从大量非结构化数据中抽象复杂奖励规则生成

成功案例

“Mercor 的少量高质量数据点(少于1k)即可训练出线性性能提升的模型”

这与新 neo-labs 如 Flapping Airplanes 的理念一致:

“专注于前沿数据效率”

成功的关键因素

  1. 顶级研究背景 + 令人信服的企业 FDE 用例
  2. 在低验证不对称性领域 (low asymmetry of verification) 的专长
  3. 在难以验证的领域整合”品味” (taste)
  4. 为低验证扩散的业务问题开发模型

基础设施建设的困境

被遗忘的教训:Tinker

“很多人忘记了 Tinker。”

在构建后训练基础设施的过程中,必须构建完整的套件来建立粘性:

  • ❌ 只做一部分 → 被其他玩家超越
  • ✅ 完整闭环 → 用户留存

OpenAI 的先例

OpenAI 是为数不多的提供 DPO 微调 API 的实验室之一——但很多人已经忘记了这一点。


关键洞察总结

  1. 研究优先或死亡 - 中间地带的数据公司无法生存
  2. 主观性 = 机会 - 企业定制工作流需要专门的后训练
  3. 基础设施必须完整 - 碎片化建设会被快速超越
  4. 预判能力 > 优化能力 - 研究方向变化的速度超过优化周期
  5. 后训练民主化 - 工具门槛降低,企业自建能力上升

对投资者的启示

信号 含义
大型实验室招聘 FDE 最后一公里实施是真实瓶颈
Microsoft 开始内部后训练 后训练能力成为基础设施标配
数据公司被收购潮 中间地带玩家出清
新 neo-labs 专注数据效率 下一波创新方向

整理时间: 2026-02-28
来源: Sean Cai (@SeanZCai) / Twitter
原标题: Where Data Companies are heading in 2026