回顾我们的2025年AI预测:准确性如何?
创始人
2025-12-15 22:21:37

预测1:Meta将开始对其Llama模型的使用收费。

结果:错误

Meta的AI组织在2025年经历了巨大变化。在其旗舰Llama 4模型首次亮相令人失望,加上优秀的中国开放权重模型如DeepSeek、Qwen和Kimi的出现后,Meta首席执行官马克·扎克伯格采取了重大步骤来彻底改革公司的AI策略。

Meta基本上以140亿美元收购了亚历克斯·王和Scale AI,王成为公司新的首席AI官;进行了奢侈的AI招聘狂潮,包括向个人研究人员开出10亿美元的报价;解雇了AI组织的数百名员工;与传奇首席科学家杨立昆分道扬镳;并多次重组其AI组织。

有传言称Meta计划放弃其开放权重AI策略,其下一个旗舰模型将是专有的。Llama系列模型可能已经结束。(显然,Meta的新模型代号为"Avocado"。)

Meta很可能会在未来寻求将其前沿模型货币化。但公司尚未这样做。

预测2:扩展定律将在文本以外的领域被发现和利用,特别是在机器人和生物学领域。

结果:正确

一年前,几乎所有关于扩展定律的讨论都集中在语言上。在2025年期间,我们在其他一系列数据模态中看到了扩展定律的越来越多证据。

机器人是一个重要领域。公开展示机器人扩展定律最具体证据的公司是Generalist AI。在上个月的博客文章中,Generalist AI分享了令人印象深刻的数据,显示其模型的性能随着预训练数据和计算的增加而按照幂律可靠改善。这些曲线让人想起OpenAI为其大语言模型发布的早期扩展定律曲线。

虽然他们没有公开分享太多,其他追求机器人基础模型的初创公司,包括Physical Intelligence,据说也在发现和利用扩展定律方面取得进展。

最近证明存在扩展定律的另一个模态是自动驾驶汽车。今年夏天,Waymo发布了研究,显示其自动驾驶汽车模型存在扩展定律,特别是在运动预测和规划方面。

正如Waymo团队所写:"通过这些见解,自动驾驶汽车模型的研究人员和开发人员可以确信,丰富数据和模型的质量和规模将带来更好的性能。能够可预测地扩展这些模型使我们走上了不断改善对自动驾驶汽车每天遇到的多样化和复杂行为理解的道路。"

生物学是另一个明确将发挥重要作用的扩展定律领域。举两个例子,蛋白质AI初创公司Profluent和Nabla Bio都在今年发布了工作,证明随着他们扩展计算、训练数据和/或模型大小,其AI系统生成的蛋白质质量可靠改善。有趣的是,Nabla的工作表明测试时计算存在扩展定律,这是生物学中一个特别新颖的研究方向。

"我们相信,通过增加测试时计算来扩展生物分子生成模型的推理能力将成为对生物系统设计重要的基本'扩展定律',"Nabla团队在2025年5月的论文中写道。"正如测试时推理正在快速转变语言模型能力并使机器能够解决越来越复杂的问题,生物设计中的测试时扩展可能也很快会遵循类似的轨迹。"

虽然结果并不总是发表,但今年在其他广泛的数据模态中也出现了扩展定律,从大脑数据到表格数据再到视频理解。

预测3:唐纳德·特朗普和埃隆·马斯克将发生混乱的分裂。这将对AI世界产生有意义的后果。

结果:正确

唐纳德·特朗普和埃隆·马斯克的兄弟情在2025年前半段是技术和政治时代精神的主导主题。正如预测的那样,这并没有持续。

关系在五月份开始恶化,围绕"大美丽法案",特朗普支持它,而马斯克强烈反对,认为这是令人震惊的政府支出,违背了他的政府效率部门(DOGE)。马斯克公开称该法案为"令人厌恶的可憎行为"。

2025年6月5日是特朗普和马斯克关系以壮观方式爆发的日期。如果有什么的话,"混乱"被证明是保守的说法。马斯克呼吁弹劾特朗普,提出创建新政党,并指控特朗普被点名在爱泼斯坦文件中。特朗普威胁削减马斯克的政府合同,并称马斯克疯了。接下来几天,互联网几乎只能谈论这件事。

评估特朗普和马斯克分裂对AI世界的后果需要一些推测,因为我们不知道反事实。但可以肯定地假设它产生了有意义的影响。首先,考虑到马斯克与萨姆·奥特曼和OpenAI的深度敌对关系,如果马斯克仍然是白宫有影响力的声音,OpenAI可能会得到较少支持,并发现在2025年与美国政府合作更加困难。另一个例子是,马斯克是强有力的AI安全监管的倡导者,包括在州一级;去年他支持加利福尼亚有争议的SB 1047法案。在马斯克缺席的情况下,特朗普政府对任何类型的AI监管都采取了完全放任的立场。就在上周,特朗普总统发布了一项行政命令,禁止各州实施任何AI监管。

预测4:网页智能体将成为主流,成为消费者AI中下一个主要杀手级应用。

结果:错误

2025年在网页智能体和计算机使用智能体方面取得了很多进展。

OpenAI的浏览器智能体产品,称为Operator,在2025年初大张旗鼓地推出。夏天,Anthropic推出了类似产品Claude for Chrome,旨在自动阅读网页、填写表单、导航网站并完成多步骤网页任务。热门初创公司Yutori刚刚向公众推出了其网页智能体产品。Perplexity和OpenAI等最近发布了带有内置智能体浏览器功能的新AI原生网络浏览器。

然而,这些产品都没有获得真正的主流采用。当然,没有一个可以被描述为消费者AI的"下一个主要杀手级应用"。你知道有多少人实际上定期使用Claude for Chrome来自动化网络任务?或者已经将默认互联网浏览器切换到Perplexity Comet?

这个产品类别的潜力显然是巨大的。AI智能体最终自动化互联网上人们今天手动完成的大多数任务似乎是不可避免的。但不是在2025年。为什么不?最重要的是,因为这些产品——虽然演示效果很好——还没有始终可靠和广泛地工作,以至于对日常使用具有吸引力。

也许它们的突破时刻将在2026年到来。

预测5:将AI数据中心放置在太空中的多项严肃努力将形成。

结果:正确

在去年的所有预测中,这一个比任何其他预测都受到更多怀疑甚至嘲笑。各地读者都评论说,轨道AI计算的想法是多么不严肃和不切实际。

一年的差别是巨大的。

"太空数据中心"已成为2025年最时髦和最具共识的技术趋势之一。埃隆·马斯克已成为这个想法的声音支持者,公开表示SpaceX正在追求这个机会。杰夫·贝佐斯和Blue Origin也是如此。上个月,谷歌宣布了一个名为Project Suncatcher的重大新倡议,将TPU放置在轨道上,第一批芯片最早将在2027年升空。埃里克·施密特收购了发射公司Relativity Space,明确目标是开发轨道数据中心。太空数据中心概念的早期先驱Starcloud正在与Nvidia就机会进行合作。像Aetherflux这样的初创公司正在突然转向以搭上这趟列车。

太空是困难的。轨道计算能力扩展到有意义水平需要很多年。但这确实正在发生——不这样做太说不过去了——2025年是这对每个人都变得明显的一年。

预测6:AI系统将通过语音图灵测试。

结果:错误

正如去年预测的那样,2025年是语音AI的突破年。今年在从客户支持到销售到房地产到消费者聊天机器人等领域推出并快速扩展了众多语音优先AI产品。

推动这种增长的一个重大技术进步是语音到语音模型的出现:可以将口语音频作为输入并直接产生口语音频输出的AI模型,无需将音频转换为文本作为中间步骤进行分析。今天最先进的语音AI模型,例如来自Google的Gemini和OpenAI的ChatGPT,都是语音到语音的。

然而,语音AI模型尚未达到与人类持续无法区分的性能水平。换句话说,它们尚未通过"语音图灵测试"。

花一些时间与ChatGPT大声对话,你会第一手体会到,在各个维度上,体验感觉不如与另一个人对话那样自然和流畅。延迟仍然不是一个已解决的问题;语音AI模型有时在自然轮流和话语中断方面仍有困难;它们经常听起来过于精致和清晰;特别是在较长的对话中,它们缺乏真正的情感状态和人格变得越来越明显。

预测7:在构建能够自主构建更好AI系统的AI系统方面将取得重大进展。

结果:正确

在2025年,能够自主构建更好AI系统的AI系统的想法——通常被称为递归自我改进或RSI——在AI研究世界中占据中心舞台。

在上半年,AI初创公司Autoscience、Intology和Sakana分别推出了完全自主产生研究论文的AI系统,这些论文通过盲评过程(意味着人类评审员不知道研究是由AI进行的)被接受到领先的AI研究会议。Sakana和Autoscience的论文被ICLR研讨会接受,而Intology的被ACL主要会议程序接受。

几个月前,OpenAI公开承认它正在构建"AI研究员"——一个能够自主进行自己AI研究的AI系统——表示预计在2026年有一个初始工作版本,在2028年有一个成熟的系统。

在过去几个月中,形成了许多专注于构建递归自我改进AI系统的高学术背景、资金充足的初创公司。大多数仍在隐身模式。预计在2026年看到许多这些初创公司公开推出。

递归自我改进是一个令人兴奋和直观的概念。如果有通向"快速起飞"和超级智能爆炸的路径,它很可能涉及RSI。没有人让这个工作过,但今年,许多人开始认真尝试。

预测8:OpenAI、Anthropic和其他前沿实验室将开始"向上移动堆栈",越来越多地将战略重点转向构建应用程序。

结果:正确

虽然OpenAI和Anthropic仍然构建前沿模型,这些组织的商业重点已经向上转移到应用层。

大语言模型的第一个"杀手级应用"是编程,大型实验室今年在编程AI市场上进行了激烈竞争。Anthropic在这个领域历来有优势,其Claude Code产品(2月推出)获得了巨大成功;OpenAI的Codex产品(5月推出)最近获得了动力,因为OpenAI的模型在编程任务方面继续改进。

从金融服务到生命科学,OpenAI和Anthropic今年都大力投资开发特定行业的应用程序和解决方案。

9月,OpenAI宣布正在开发一个新的AI驱动招聘平台,将与LinkedIn竞争,明年推出。有传言称两个实验室都在其他领域开发其他第一方应用程序,包括法律、客户支持和市场推广。时间将告诉我们这些领域的独立产品是否以及何时会见到天日。

我们不要忘记:OpenAI商业策略的核心和其惊人的2025年收入增长的主要驱动因素——从年初的60亿美元ARR到年底的200亿美元ARR——是ChatGPT,毕竟这是一个应用程序。

预测9:机器人出租车服务将在至少5个美国主要城市的网约车市场中赢得两位数市场份额。

结果:错误

接近了,但不完全正确!

Waymo的机器人出租车服务目前向公众开放的五个城市是:旧金山、凤凰城、洛杉矶、奥斯汀和亚特兰大(后两个通过Uber应用程序)。

根据替代数据供应商YipitData的数据,截至10月,Waymo在这五个城市的网约车市场份额为:

旧金山:24%(相比Uber的54%)

凤凰城:16%(相比Uber的52%)

洛杉矶:13%(相比Uber的56%)

奥斯汀:8%(相比Uber的64%)

亚特兰大:6%(相比Uber的59%)

与此同时,Zoox(亚马逊)在拉斯维加斯推出了机器人出租车服务,但尚未扩展到那里的有意义市场份额。

所以机器人出租车服务今年在三个美国主要城市赢得了两位数市场份额,在另外两个城市有显著的个位数市场份额(8%和6%)。几乎成功!

预计这些数字在2026年继续增长。几周前,Waymo宣布了计划在未来几周推出的下五个市场:迈阿密、达拉斯、休斯顿、圣安东尼奥、奥兰多。Zoox刚刚在旧金山推出自己的机器人出租车服务,计划很快在其他城市部署。

自动驾驶汽车时代已经正式到来。

预测10:第一起真正的AI安全事件将发生。

结果:错误

去年,我们为这个预测写道:

"随着人工智能在最近几年变得更加强大,人们越来越担心AI系统可能开始以与人类利益不一致的方式行动,人类可能失去对这些系统的控制。例如,想象一个AI系统学会在追求自己目标时欺骗或操纵人类,即使这些目标对人类造成伤害。

这一般的担忧通常被归类在'AI安全'的总体术语下。

(AI创造了许多其他社会挑战,从促进监控到延续偏见,但这些主题与AI安全领域不同,AI安全更具体地关注AI系统开始以不一致的方式行为的风险,这些行为超出人类控制,甚至可能最终对人类构成生存威胁。)"

AI在2025年造成了很多问题。举一个例子,Anthropic最近报告说它检测并破坏了第一次AI策划的网络安全攻击。据Anthropic称,一个中国国家资助的组织越狱了Claude并释放它自主攻击某些目标组织。

但今年没有发生(或至少没有公开报告)上述讨论的那种真正的AI安全事件。

在Anthropic网络安全例子中,人类(黑客)仍然定义了AI模型的目标并指导其高级行动。Claude按照其人类用户希望它做的事情行动,即使这些行动对社会有害。

我们还没有看到AI系统真正失控的例子,制定并执行与其人类用户意图明确冲突的自己的目标:例如,向人类隐瞒其能力的真实程度,或秘密在另一台服务器上创建自己的副本以延续自己,或以其他方式操纵人类推进自己的目标。

这最终会发生。

Q&A

Q1:什么是递归自我改进(RSI)?它在2025年取得了哪些进展?

A:递归自我改进是指AI系统能够自主构建更好AI系统的技术。2025年,Autoscience、Intology和Sakana等公司推出了能完全自主产生研究论文的AI系统,这些论文通过盲评被顶级AI会议接受。OpenAI也公开承认正在构建"AI研究员"。

Q2:为什么网页智能体没有在2025年成为主流应用?

A:虽然OpenAI的Operator、Anthropic的Claude for Chrome等产品都已推出,但这些产品还没有获得真正的主流采用。主要原因是这些产品虽然演示效果不错,但在可靠性和通用性方面还不足以满足日常使用需求。

Q3:太空数据中心在2025年有哪些重要发展?

A:太空数据中心从被质疑的概念变成了2025年最热门的技术趋势。马斯克的SpaceX、贝佐斯的Blue Origin都在追求这个机会,谷歌宣布了Project Suncatcher项目将在2027年将TPU送入轨道,埃里克·施密特也收购了发射公司专门开发轨道数据中心。

相关内容

热门资讯

校企如何当好“合伙人”?“最强... 12月15日,2025高校科技成果交易会在广州启幕。在“高校助力科技创新和产业创新融合发展——大学校...
跨省常住人员如何参保?哪些人群... 跨省常住人群如何参保?哪些人群参保可以免缴或者减半?12月15日,湖南省医保局工作人员围绕跨省常住人...
把实况影像玩出花样,且看viv... vivo S50把实况影像做成了一个充满情绪的表达工具。高光慢动作自动捕捉精彩瞬间,柔光环为人像增添...
原创 拼... 想做好电商需要掌握哪些东西呢?我来数数,要懂作图,懂平台规则,懂市场,懂用户,懂开车等等。 在座的各...