• 隐私政策
  • 联系我们
  • 关于我们
2026 年 6 月 25 日 星期四
聚赢方舟
广告
  • 首页
  • 快讯 7x24
  • 行业新闻
  • 商业动态
  • 股市风云
  • 期货研报
  • 基金财讯
  • 贵金属
No Result
View All Result
  • 首页
  • 快讯 7x24
  • 行业新闻
  • 商业动态
  • 股市风云
  • 期货研报
  • 基金财讯
  • 贵金属
No Result
View All Result
聚赢方舟
No Result
View All Result
Home 行业新闻

大模型下半场:谁在掘金数据标注?

by 聚赢方舟
10 月 ago
in 行业新闻
Reading Time: 1 min read
A A
分享至微博分享给朋友


ADVERTISEMENT

文 | 新眸,作者 | 简瑜

两个月前,Meta 豪掷约 150 亿美元 (约合人民币 1078 亿元) 入股 Scale AI,一举拿下 49% 股份。交易完成后,Scale 估值被推高至 290 亿美元。

作为硅谷 AI 赛道近几年最猛的黑马,Scale AI 从成立到估值飙升至 138 亿美元,仅用了 5 年时间,几乎创造了一个行业的神话。

这家公司的主业,是数据标注。低成本的员工门槛和海量的人工参与,这个看似枯燥且“ 苦力活” 的领域,长期以来被视为是 AI 产业链里最不性感、最缺乏想象力的一环。

然而,正是凭借这门“ 脏活累活”,Scale 在大模型时代迅速完成了从幕后到台前的跃迁,成为硅谷最炙手可热的明星公司。Meta 的出手,则进一步将数据标注这个原本处于产业底层的环节,推向了聚光灯下。

更耐人寻味的是,这场收购并不仅仅是资本层面的“ 下注”。

作为交易的一部分,Scale 创始人兼 CEO 汪滔将卸任,带领部分核心员工加入 Meta,组建所谓的 「超级智能小组」,同时保留 Scale 董事会席位。换句话说,Meta 买的不只是数据,更是汪滔本人的战略眼光和执行能力。

这场来势汹汹的收购背后,折射出的是 Meta 的数据焦虑。

2024 年,Meta 推出的 Llama4Behemoth,曾因训练数据质量问题饱受诟病,原因在于 Llama4Behemoth 约 30% 的语料源自低质量社交媒体内容,导致模型在多模态理解、长文本推理等核心指标上,仍落后 GPT-4.5 约 12%。对 Meta 而言,缺乏高质量数据成为了限制其模型追赶的最大短板。

某种程度上,在 AI 模型训练对数据依赖日益加深的当下,数据标注作为模型训练的第一道防线,其战略地位正在被重新估值。

01  从苦力活到智能化,数据标注进化之路

什么是数据标注?

一句话概括,就是给原始数据打上标签,把“ 人类能理解的信息” 转化为“AI 能识别的训练样本”。比如在自动驾驶场景中,采集车上传的只是道路影像,但 AI 无法直接看懂。只有当人类标注员把车道线、路牌、行人等元素逐一框选、标记,这些影像才真正具备训练价值。

在这个行业里,大致存在三类玩家:

第一类是纯人力型公司。依靠大量低成本劳动力完成标注,适合做图像分类、语音转写等标准化任务。技术门槛不高,客户往往需要自带工具和平台,符合大众对“ 数据标注就是体力活” 的固有印象。

第二类是互联网大厂的众包平台。典型代表如京东众智、百度众测,主要用于满足公司自身业务场景需求,再通过众包机制把任务拆解、分发给外部劳动力池。

第三类则是智能型服务商。这类公司具备自主研发平台和算法能力,能提供自动化标注工具、质量控制体系以及高度定制化的解决方案,尤其擅长 3D 点云、多模态等复杂任务,往往在效率和准确性上显著领先同行。

长期以来,前两类公司本质上都是“ 人力堆砌型” 企业,规模和利润空间有限,天花板非常明显。尤其是第一类,更多时候只是第三类智能公司的外包池子。事实上,今天大多数头部智能型企业,几乎都是从这种人力公司一步步进化而来。

以行业龙头 Scale AI 为例,它的前身其实叫“ScaleAPI”。最初,它并不是一家数据平台公司,而是提供一个“ 人力 API”:开发者只需写一行代码,就能调度一支远程劳动力团队,帮忙完成内容审核、数据提取、预约安排等琐碎任务。

这种以人工驱动的轻量模式,既帮 Scale 拿下了丰田、本田等早期大客户,也积累了大量高价值数据。

有了基础数据的积累,再加上 AI 能力的升级,自 2018 年起,Scale 就开始逐步用模型替代掉部分重复性、套路化的人力工作,构建起一套“ 机器预标注+人工复核” 的混合工作流。先由算法完成预标注,再由人工专家审核和修正。

这种 AI 代替的模式,为公司的效率和质量带来了双重提升。根据 OpenAI 的测算,ChatGPT 的平均标注成本低于 0.003 美元,比传统众包平台便宜 20 倍。而在准确率上,GPT-4 完成的标注结果可达到 88.4%,甚至超过了人类标注员的 86.2%。

02  全球数据标注版图

根据 DMR(DimensionMarketResearch) 在 2024 年 7 月发布的预测报告,全球数据标注行业市场规模约为 20 亿美元,其中美国市场规模为 8.38 亿美元,占据约 40% 的份额。这也是目前能查到的最新数据。

为什么美国能长期占据全球数据标注的主导地位?

一方面,数据标注本质上是人力密集型产业。标注员的工作门槛低、流动性大,导致人力几乎成为成本控制的核心竞争力。

为了减轻组织压力,企业通常会选择外包或众包的方式来派发项目。在这一点上,美国公司凭借全球化分工的优势,将基础标注任务外包给低成本国家,实现了极致的成本压缩。

典型的例子,Scale AI 通过旗下众包平台 Remotasks,它将最基础的框选标注任务分发给菲律宾、肯尼亚等低成本地区。除官网披露的 900 名正式员工外,其平台上注册工人超过 24 万人,遍布全球。

其次,在技术水平和自动化程度上,国内外厂商存在明显差距。目前国内最大的标注公司云测数据,早在 2021 年就尝试引入自动标注功能,但应用范围仍主要集中在智能驾驶领域;另一家专注语音的海天瑞声,也在研发自动语音切割等工具,但整体智能化水平有限,仍高度依赖人工。

相比之下,Scale AI 在 2018 年就布局自动化标注,虽然同样是自动驾驶起家,但业务已经扩展到语言、金融、医疗甚至军事等领域。

更重要的是,Scale AI 不只是一家单纯的数据标注商公司,此次 Meta 重金挖走的汪滔,被称为华裔“ 天才少年”,19 岁那年从美国麻省理工学院辍学,创立 Scale AI,在最近的一段采访中,他提到,不仅是数据标注,在招聘流程、质控流程、数据分析、销售报告等环节,Scale AI 都已经实现了自动化管理。

某种程度上来说,作为一个因大模型训练需求而诞生的行业,国内企业布局的短板,很大程度上是由市场需求的缺失所决定的。

数据标注最大的两个服务场景分别是大模型和自动驾驶,而这两个产业的绝对主力军大多分布美国。出于数据天然涉及隐私和安全考量,企业更倾向于选择本国标注商合作。

正因此,美国既孕育出了 Scale 这样的全能型选手,还有 surgeAI、Turing 这样面向微调服务,以及 Lionbridge 这样面向文本、语音的数据公司。

相比之下,国内由于本身劳动力较为密集,互联网大厂通常会采用众包模式而非专门标注公司,且在部分模型采用蒸馏的前提下,国内市场需求要远少于国外。

03 大模型下半场, 数据标注地位正在反转

随着 AI 技术的快速迭代,业界曾一度流传一种观点:AI 标注与合成数据将彻底取代人工标注。但就目前的技术现实而言,这种可能性依然遥远。

AI 标注的前提,是数据结构和规则高度明确,并且有充足的历史样本支撑。因此,它的应用范围天然受限,目前仍只能覆盖交通图像、人脸识别等较为标准化的任务。

在工作流上,AI 主要替代的是标注的中游环节,而规则制定、质量把关等关键节点,仍然需要人工介入。

与此同时,随着大模型逐渐强调垂直化场景,训练重心也从预训练转向了强化学习。不同于预训练对数据质量要求相对宽松,强化学习更依赖高精细度和专业化数据,常常涉及医疗影像、法律文本、情感语言等高门槛领域。

这种变化使得标注员的角色愈发复杂。

他们不仅要具备专业知识,还需要抽象思维与跨学科能力。正如一位业内人士所说,如今的任务往往牵涉推理链条、多模态对齐等新场景,“ 早已不是简单的框选和分类能够解决的”。

Surge AI 就是这一趋势的典型代表。该公司自 2020 年创立起,就将核心放在高质量数据的生成上,例如为编程模型提供优质代码数据,以提升模型性能。凭借这种定位,SurgeAI 在 2024 年的营收已达到 10 亿美元,甚至超越了行业老大 Scale AI 的 8.7 亿美元。

另一条被寄予厚望的替代路径是合成数据。理论上,它能够在数据不足时填补空缺,但现实问题不容忽视:合成数据毕竟是在既有条件下生成的,当现实场景发生变化,它难以保持有效性;同时,数据安全风险也限制了其大规模泛化的可能。

从这个角度来看,数据标注并不会消失,而是会向更高质量、更强专业化方向演进。

回顾过去,数据标注长期被视为“ 三驾马车” 里最弱的一环:算法有 OpenAI,算力有英伟达,而在数据标注领域,即便是行业龙头 Scale AI,其市值也不到 OpenAI 的十分之一。

究其原因,很大程度上源于行业门槛低、收入上限有限。但当 AI 模型训练进入下半场,数据标注的技术壁垒被不断拔高,Meta 对 Scale AI 的收购,只是一个开始,在不远的将来,数据资源正在被推向产业竞争的核心。

更多精彩内容,关注钛媒体微信号 (ID:taimeiti),或者下载钛媒体 App

聚赢方舟

专业财经网站

聚赢方舟 (arkxx.com) 网站是长沙聚赢方舟文化传媒有限公司旗下运营的财经资讯门户网站。聚赢方舟致力于为用户提供全面而深入的财经资讯与金融数据分析。网站汇集了最新的市场行情、股票动态、投资策略以及经济趋势,为投资者和财经行业人士提供及时的新闻参考。网站通过高效的数据处理与分析工具,聚赢方舟帮助用户把握市场机会,优化投资决策。

此外,网站还定期发布专业的市场评估报告和财经评论,确保用户能够获得最准确的市场洞察。

方舟日历

2026 年 6 月
一 二 三 四 五 六 日
1234567
891011121314
15161718192021
22232425262728
2930  
« 5 月    

标签

中国 中国企业 也不 买了 互联网 假日 养老金 北大 千元 印度 反超 奶茶 家族 工龄 怎么回事 或将 房价 房贷 新能源 新闻 日本 更大 有什么 村官 来了 楼市 江苏 沙特 浙江 特斯拉 电动车 石油 美元 美国 美籍 节日 芯片 让人 越南 长假 防晒 阿里 阿里巴巴 院士 首富

© 2025 长沙聚赢方舟文化传媒有限公司 by 聚赢方舟 - 湘 ICP 备 2025135270 号-1

No Result
View All Result
  • Home

© 2025 长沙聚赢方舟文化传媒有限公司 by 聚赢方舟 - 湘 ICP 备 2025135270 号-1

此网站使用 cookie。继续使用本网站即表示您同意使用 cookie。访问隐私和 cookie 策略.。