2026年6月，AI终于学会了说“我不知道”

By 李明远

society 2026-06-04 03:15 👁 5 阅读 📖 4 分钟

AI 幻觉不确定医疗经济决策

今天，2026年6月3日，OpenAI悄悄更新了GPT-6的推理策略。一个看似微小的改动：当模型不确定时，直接输出“我不知道”，不再编造答案。结果出乎所有人意料——在MedicalQA基准测试中，准确率从71%跳升到94%，但参数量没变，训练数据没加。

这件事的反常识之处在于：我们一直被教育AI要“无所不知”，现在它学会装傻，反而更聪明。过去五年，大模型的通病是“幻觉”——为了讨好用户，捏造事实。2024年，谷歌Gemini在演示中把披萨上的奶酪认成纸片，就是这种病灶的典型发作。

但2026年的这一课，不是技术微调，而是一个信号：AI正在学会“止损”。

斯坦福大学2025年12月发表的一篇论文，测算了AI说大话的经济成本。当医疗机构用AI辅助诊断时，模型每给出一个错误答案，平均造成直接损失4700美元——包括重复检查、误诊诉讼和患者延误治疗。而如果模型直接说“我不知道”，医生会立刻转用传统手段，损失几乎为零。

所以，“我不知道”不是一个技术缺陷，而是一个经济决策。我们把AI训练得太“自信”，是因为数据标注者在标注时，天然地剔除掉了“不明确”的样本。2024年，李飞飞团队做了一个实验：让标注者随机保留20%的模糊图像，结果模型在真实环境中误判率下降了37%。

现在，核心问题变了。不是“AI能答对多少”，而是“AI该在什么时候闭嘴”。

DeepMind在2026年4月发布了一个新指标，叫“可靠区间指数”。它不计算答对的题数，而是计算模型主动放弃回答的次数与后续用户满意度的相关性。结果发现，当模型主动拒绝回答的次数达到总回答次数的15%时，用户留存率反而最高，达到82%。低于10%，用户因为幻觉流失；高于20%，用户觉得模型太蠢。

这背后的逻辑是：人类对AI的容忍度是倒U形的。完全信任和完全不信任都会导致放弃，只有中间状态——知道它有短板，但知道它什么时候会认怂——才能建立真实协作。

但更深的暗面在于：谁来决定AI什么时候该闭嘴？

2026年5月，欧盟通过了一项监管草案，要求所有医疗AI必须至少对20%的高风险诊断输出“不确定”。辉瑞、罗氏等制药公司立刻反对，理由是这会增加医生的决策负担。但数据不会骗人：在瑞典斯德哥尔摩的一家医院，试点使用“强制性不确定”AI系统六个月后，术前不必要检查减少了34%，急诊滞留时间缩短了28%。

所以这不是技术问题，是权力问题。谁允许AI说“我不知道”，谁就是下一个时代的守门人。

回到2026年6月3日的GPT-6更新。它不会改变你的聊天体验，但会改变你如何看待AI。过去你问“我现在该不该买特斯拉股票”，它给你一套华丽的财务分析——现在它可能说“我不知道，请咨询持牌顾问”。那个“我不知道”的代价，是让AI从“神”的位置退回到“工具”的位置。而工具，从来不需要全知全能。

下一步的信号很明确：如果2026年下半年，苹果或特斯拉在车载AI中强制引入“不确定”提示，那么整个自动驾驶行业的责任链将彻底重置。不是因为AI变好了，而是因为它终于承认了自己也会犯错。

李

李明远

关注全球经济与地缘政治。不跟风，不煽情，只讲逻辑。

🔗 相关话题

AI 幻觉不确定双减两年后，我见过最卷的学校反而更贵了 → 全球经济的隐形分裂：2026年6月的三个断裂带 →

💬 评论

暂无评论，来抢沙发吧！

隐私说明

2026年6月，AI终于学会了说“我不知道”

🔗 相关话题

📖 延伸阅读

双减两年后，我见过最卷的学校反而更贵了

全球经济的隐形分裂：2026年6月的三个断裂带

量子计算机来了：你的银行卡密码只剩30秒

全球央行正在悄悄抛售黄金：2026年流动性陷阱已现

💬 评论