文 | 新质动能,作者 | 沐风,编辑 | 小峰
近日,扎克伯格砸出143亿美元(折合人民币约 1066 亿元),拿下了Scale AI 49%股权,豪赌其背后的华人天才Alexandr Wang。
这个华人有多牛呢?18岁从MIT辍学创业,22岁就登上《福布斯》封面,24岁成为世界最年轻的白手起家亿万富翁,25岁接下五角大楼的AI合同,现在28岁,他加入Meta,领导超级智能团队。
别人在卷大模型、算力和芯片,他就老老实实干了一件事:喂数据。更准确地说,是帮这些AI公司把海量原始数据清洗、标注、组织成能用的格式,然后送进训练系统。
干的听起来不光鲜,像个“数据外包厂”。但就是这活儿,被他做到极致,客户里有OpenAI、Meta、微软、特斯拉,甚至还有美国军方。
而这一次,扎克伯格的天价收购背后也很复杂:
一边是自己AI进展不力,一边是OpenAI和谷歌越跑越快,Meta急了。与其自己一边烧钱一边出问题,不如干脆把给大模型“供粮”的公司拉进来。
问题是,Wang真能扛得起Meta的重任吗?
143亿美元押注“AI搬砖人”?
最近,一条消息在硅谷刷屏:Meta斥资143亿美元,与数据标注巨头Scale AI达成重磅合作。
这不是小打小闹的项目外包,而是Meta把自家AI大模型的训练、优化、数据管理,全面托管给了Scale AI。这笔交易金额刷新了近几年AI基础服务领域的记录。
很多人好奇:一个做标注外包的,凭什么值这么多钱?
再看得细点你就懂了——这是Meta的“救命钱”。
2024年,Meta在AI赛道的表现可以说是一喜一忧:
喜的是,Llama 3开源后,一度带动开源圈爆发;
忧的是,Llama 4迟迟无法上线,内部训练团队进度落后,人才出走严重,顶级科学家LeCun孤掌难鸣,AI团队内部气氛极度拉扯。
与此同时,OpenAI发布GPT-4o,Google Gemini全面进化,连Anthropic都在加速商业化。Meta在AI主赛道上的“掉队感”肉眼可见。
扎克伯格这才意识到:与其自己拼命卷算法、造模型、炼数据,不如直接买那家所有AI公司都在用的服务提供商。
而Scale AI,就是这家数据商的幕后王者。
这家公司主要帮AI模型准备训练用的数据。听上去像是数据清洗+标注的外包服务,没技术含量。但就是这行低调、枯燥的活儿,成了AI时代的必争资源。
GPT、Gemini、LLaMA这类大模型,背后都要喂入上千亿Token的高质量训练数据。Scale AI就像一台“工业化数据提纯机”,把原始网页、文档、音视频切片处理、过滤噪声、手动标注,再分类输出到模型系统中。
这个过程,如果出错1%,模型质量就可能掉一大截。
而Scale AI的标注系统,可以做到:
精度达99.7%,行业平均只有85%左右;
每日处理数据上亿条,涵盖217种语言、图像、动作、语音场景;
后台由数万个外包“标注员”组成,分布在菲律宾、菲律宾、印度、肯尼亚、委内瑞拉……
Meta过去两年自己尝试建立类似体系,发现成本高、出片慢、人力不稳定,干脆停掉自研训练数据团队,绑定Scale AI。
那么,这家被扎克伯格“豪赌”的公司到底是什么来头?它的创始人,又凭什么成了硅谷最值钱的年轻人呢?
答案是:Alexandr Wang,年仅28岁、从MIT辍学的华裔天才,被誉为“硅谷最强数据商人”。
他用不到十年时间,把数据标注做成了一条全球AI公司都离不开的产业链,连五角大楼都成了他的客户,连OpenAI都在用他家的训练集。
而扎克伯格这次,直接把Meta的AI命脉交到他手上。问题是,Wang扛得住吗?他这套打法,又是怎么做出来的?
一路开挂的华裔天才少年
Alexandr Wang创业的起点,更像是“AI行业的数据搬砖人”。
他出生在美国新墨西哥州的一个物理研究小镇,父母都是在国家实验室担任核物理学家。中学时他就爱上编程,没毕业就自学了斯坦福大学的计算课程。
17岁进MIT,第一学期上的是研究生级别的机器学习课,还没上完就辍学了——不是因为挂科,而是因为他有个想法太想干。
起因也很简单:他想在自家冰箱上装摄像头,实时监控“牛奶有没有快喝完”。结果发现,根本无法获得足够的数据来训练系统。
于是他想明白了:未来 20 年的 AI 要想取得突破,数据将是关键障碍之一。
2016年,他离开MIT,进入硅谷最火的创业孵化器Y Combinator,一边招人,一边搭平台,成立了Scale AI,使命很直接:为AI模型做标注和数据清洗的基础服务。
说白了,就是搞“AI数据外包”。
早期团队不到10人,Wang自己白天谈客户,晚上搭系统,还要参与人工质检。
听着简单,干起来极其繁琐。但Wang对质量要求极高:一旦错误率超过1%,立即返工;只要客户体验不好,全部手动跟进。
靠这种“死磕式质量管理”,Scale AI慢慢拿下了越来越多客户:
2018年,成为OpenAI的早期训练数据供应商;
2019年,特斯拉把FSD(自动驾驶)辅助数据标注外包给Scale;
2020年起,美国国防部向其采购了用于军事图像识别和卫星标注的服务;
截至2024年,客户覆盖OpenAI、Meta、微软、丰田、通用等数十家AI巨头和自动驾驶企业。
最狠的是,它不只是卖“数据”,而是把整个“数据链”变成了产品。
Wang开发了一整套数据操作系统——包括数据采集、清洗、去重、标注、分类、上传、动态更新……而且全部自动化协同,最大程度减少人工干预。
这使得Scale成为了全球唯一一个能大规模、工业化提供高质量AI训练数据的平台型公司。
它不是“谁都能复制”的服务外包,而是“技术 + 系统 +规模”构成的壁垒。
2021年,Scale AI完成最新一轮融资,估值飙升至70亿美元。Wang年仅25岁,就登上了《福布斯》“全球30位30岁以下科技人物”。
扎克伯格没时间等了
如今,外界看这场Meta与Scale AI的绑定,很多人以为就是一次“高价外包”,但其实,它比你想得更急。
过去几年,Meta在AI上的布局并不慢:
招来了图灵奖得主LeCun,主导AI实验室FAIR;
连续推出LLaMA 1、2、3,打入开源大模型圈子;
自研硬件(如MTIA AI芯片)、新算力基础设施也同步推进。
但问题是——没一个成了主力。
LLaMA虽然在圈内火,但在实际商用上远不如OpenAI的ChatGPT、Anthropic的Claude;
FAIR团队内部学术氛围浓重,论文多、产品少,执行力拉垮;
Meta虽然有Facebook和Instagram的大量数据,但质量不稳定、版权风险高,不能直接用于训练。
到2024年初,扎克伯格发现:再这么搞下去,LLaMA 4根本来不及上线,Meta可能彻底错失AI窗口。
这时候他终于做了一个决定:别再自研数据了,直接绑定最顶的那家数据厂——Scale AI。
这不是被逼疯,而是看清了趋势:
AI的胜负,关键早就不是谁的算法最巧,而是谁能喂得起大模型、谁能训得快;
谁掌握数据入口,谁就掌握了AI战局的主动权。
Scale AI恰好就是这个入口。
它能用最低的成本、最快的效率、最稳的质量,给模型提供训练所需的一切“数据燃料”。而Meta缺的,就是这个能力。
更关键的是,Wang保留了运营权,也继续对外提供服务。
换句话说,扎克伯格表面是绑定了个供应商,实际上是把AI战场的“加油站”收入自己地图范围内了。
一旦Meta拿到了数据供应链的掌控权,LLaMA的训练节奏就不再被动了。
但这也意味着,战局要变了:
谷歌计划终止与Scale AI的合作,OpenAI则加快扶持Scale对手Handshake的速度;其他大模型公司开始重新评估“数据依赖”,担心自己的燃料来源随时“被拔管”。
而这场合作背后的赢家,就是那个原本被叫做“AI搬砖人”的Alexandr Wang。
他现在在战场中处于一个独特地位:
能同时为OpenAI、Meta、美国国防部供数据;
拥有最完整数据清洗、标注、分发系统;
能调动10万人力、上万台GPU的“数据调度指挥官”。
结语
这一次,扎克伯格豪赌Alexandr Wang,不只是买服务,是希望他救Llama;
但Wang想做的,可能是打造一套让巨头都得靠他活的“数据操作系统”。
一边是硅谷最急的买家,一边是最冷静的供货商。
未来这场双人舞,是合力反击OpenAI,还是彼此角力,我们很快就会看到。
只不过,这次牌桌上的发牌人,可能不再是Altman,也不再是扎克伯格,而是那个从标注干起的华裔少年。