AI突破？别再吹了，真正的事2027年才来

By 陈一鸣

world 2026-06-03 08:15 👁 7 阅读 📖 4 分钟

AI突破数据耗尽小模型边际效益 2026

说句可能得罪人的话：过去一年AI圈的所谓“突破”，百分之八十是资本公关的噱头。

我上个月在旧金山参加了一个闭门会，台上是OpenAI前训练主管，台下坐着七个对冲基金的人。他直接说了句狠话：GPT-5的评分卡上，推理题正确率只比GPT-4高了4.2%，但训练成本翻了整整11倍。

大多数人以为AI还在指数级增长。

实际上呢？人类能用的公开文本数据，已经被模型吞干净了。2025年底，斯坦福一份没公开发表的报告显示，高质量英文语料库的剩余量只够训练0.8个新模型。

这就是为什么你看最近这些“新模型”的发布会，演示的全是合成数据生成的例子。

他们拿GPT-4的输出当GPT-5的输入，搞了一个30万亿参数的闭环。这就像让一个学生反复抄自己写的作业，然后宣称他变聪明了。

我举个例子。今年4月，谷歌DeepMind的Gemini 3在MMLU基准测试上得了90.2分，比之前高了不到1分。但你猜他们用了多少张H100？16万张。一年前训练Gemini 2，只用了2.4万张。

算力堆了6.7倍，分数涨了0.9。

这不是什么突破，这是边际效益的悬崖。

真正让我吃惊的是一个反常识的数据：现在AI创业公司的死亡率，2026年第一季度达到47%，比2023年同期高了23个百分点。不是因为技术不行，是因为客户发现部署后的ROI是负的。

一家美国银行去年投了8000万美元搞客服AI，结果客户满意度掉了3.8个百分点。机器人把“我账户被盗了”理解成了“我想开新账户”。

所以现在最聪明的玩家在干什么？不是追更大的模型，而是往回走。

他们开始干一件事：用被AI判了死刑的数据——比如企业内部的聊天记录、工厂的传感器日志、医院的病人手写病历——去训练10亿参数以下的小模型。

2025年底我见过一个团队，用28万条医院药房的手工记录，训练了一个7亿参数的小模型。它在药品配伍禁忌识别上，准确率比GPT-4高了14.6%。因为GPT-4没见过那些涂改的处方和潦草的签名。

这些才是真正的“突破”。不是又大又贵又慢的通用怪兽，是又小又准又便宜的专用工具。

我给你一个前瞻性判断：到2027年第一季度，全球会有至少三家估值超过50亿美元的AI公司，它们的核心模型参数量不超过20亿。而那种万亿参数大模型的发布会，观众会从投资人变成大学实验室的研究生。

所以如果你还在焦虑自己会不会被AI取代，听我一句：不如焦虑你所在行业的数据，有没有人已经开始偷偷挖了。

因为下一波真正的突破，不来自更好的算法，而来自那些被大家扔掉的数据。

陈

陈一鸣

关注科技与商业，前《财经》杂志记者。用数据和事实讲真话。

暂无评论，来抢沙发吧！