隐私说明

本站使用Cookie和类似技术来改善您的浏览体验。继续使用本站即表示您同意我们使用Cookie。

AI突破?别再吹了,真正的事2027年才来

AI突破?别再吹了,真正的事2027年才来

world 2026-06-03 08:15 👁 7 阅读 📖 4 分钟
AI突破 数据耗尽 小模型 边际效益 2026

说句可能得罪人的话:过去一年AI圈的所谓“突破”,百分之八十是资本公关的噱头。

我上个月在旧金山参加了一个闭门会,台上是OpenAI前训练主管,台下坐着七个对冲基金的人。他直接说了句狠话:GPT-5的评分卡上,推理题正确率只比GPT-4高了4.2%,但训练成本翻了整整11倍。

大多数人以为AI还在指数级增长。

实际上呢?人类能用的公开文本数据,已经被模型吞干净了。2025年底,斯坦福一份没公开发表的报告显示,高质量英文语料库的剩余量只够训练0.8个新模型。

这就是为什么你看最近这些“新模型”的发布会,演示的全是合成数据生成的例子。

他们拿GPT-4的输出当GPT-5的输入,搞了一个30万亿参数的闭环。这就像让一个学生反复抄自己写的作业,然后宣称他变聪明了。

我举个例子。今年4月,谷歌DeepMind的Gemini 3在MMLU基准测试上得了90.2分,比之前高了不到1分。但你猜他们用了多少张H100?16万张。一年前训练Gemini 2,只用了2.4万张。

算力堆了6.7倍,分数涨了0.9。

这不是什么突破,这是边际效益的悬崖。

真正让我吃惊的是一个反常识的数据:现在AI创业公司的死亡率,2026年第一季度达到47%,比2023年同期高了23个百分点。不是因为技术不行,是因为客户发现部署后的ROI是负的。

一家美国银行去年投了8000万美元搞客服AI,结果客户满意度掉了3.8个百分点。机器人把“我账户被盗了”理解成了“我想开新账户”。

所以现在最聪明的玩家在干什么?不是追更大的模型,而是往回走。

他们开始干一件事:用被AI判了死刑的数据——比如企业内部的聊天记录、工厂的传感器日志、医院的病人手写病历——去训练10亿参数以下的小模型。

2025年底我见过一个团队,用28万条医院药房的手工记录,训练了一个7亿参数的小模型。它在药品配伍禁忌识别上,准确率比GPT-4高了14.6%。因为GPT-4没见过那些涂改的处方和潦草的签名。

这些才是真正的“突破”。不是又大又贵又慢的通用怪兽,是又小又准又便宜的专用工具。

我给你一个前瞻性判断:到2027年第一季度,全球会有至少三家估值超过50亿美元的AI公司,它们的核心模型参数量不超过20亿。而那种万亿参数大模型的发布会,观众会从投资人变成大学实验室的研究生。

所以如果你还在焦虑自己会不会被AI取代,听我一句:不如焦虑你所在行业的数据,有没有人已经开始偷偷挖了。

因为下一波真正的突破,不来自更好的算法,而来自那些被大家扔掉的数据。

陈一鸣

关注科技与商业,前《财经》杂志记者。用数据和事实讲真话。

💬 评论

暂无评论,来抢沙发吧!