文章作者、来源：深潮 TechFlow 导读：当大模型在所有榜单上都开始碾压人类，投资人开始陷入一种绝望：除了 Anthropic 和英伟达，还有什么值得投？这位硅谷顶级投资人用数据和案例说明，真正的护城河不在榜单上——它藏在那些无法被 benchmark 衡量的地方。 2026 年中，投资者版本的 AI 精神错乱是一文章作者、来源：深潮 TechFlow 导读：当大模型在所有榜单上都开始碾压人类，投资人开始陷入一种绝望：除了 Anthropic 和英伟达，还有什么值得投？这位硅谷顶级投资人用数据和案例说明，真正的护城河不在榜单上——它藏在那些无法被 benchmark 衡量的地方。 2026 年中，投资者版本的 AI 精神错乱是一

AI 投资人的 2026 焦虑：当模型吞噬一切，创业公司的护城河还剩什么？

来源：MetaEra

2026/06/11 12:35

阅读时长 24 分钟

AI$0.02721+9.67%

如需对本内容提供反馈或相关疑问，请通过邮箱 crypto.news@mexc.com 联系我们。

文章作者、来源：深潮 TechFlow

导读：当大模型在所有榜单上都开始碾压人类，投资人开始陷入一种绝望：除了 Anthropic 和英伟达，还有什么值得投？这位硅谷顶级投资人用数据和案例说明，真正的护城河不在榜单上——它藏在那些无法被 benchmark 衡量的地方。

2026 年中，投资者版本的 AI 精神错乱是一种绝望：没什么值得投了，我们应该把所有钱投给 Anthropic 和英伟达然后回家。

我从未有过这种感觉。我已经确信模型比我聪明好几个子版本了，我很乐意以市场价买入 Anthropic 和英伟达，我所有最聪明的朋友都相当确信自我改进很快就会成功——但我仍然感受不到这种绝望。

这种绝望并不愚蠢。逻辑是这样的：如果模型在所有事情上都持续变好，那么每家建立在它之上的公司都只是一层薄薄的包装，等待被吸收，唯一能存活的价值就是算力和前沿权重。

以软件为例，这是绝望论者最倚重的案例。Devin 在 2024 年发布时只能解决标准软件 benchmark 上 13%的任务，基本被无视。一年半后，最好的 agent 能达到 80 多分，它们正在高盛和美国陆军内部做真实工作。几乎所有人都得出了同样的错误教训：模型吃掉了软件工程。但当模型吞噬了软件工程中最容易衡量的部分时，我们正在重新认识到许多团队早就知道的事——工程一直抗拒衡量，最容易衡量的部分可能不是唯一重要的部分。

MIT 的 Mert Demirer 及其合作者终于给出了数字：在超过 10 万名开发者中，最新的编码 agent 让写出的代码量提升了约 180%，而实际发布的代码量提升了约 30%。写代码变便宜了。剩下的部分仍然要通过人，而且很重要。当然，净影响仍然很惊人。

benchmark 是你能衡量的东西，而你能衡量的东西就是你能针对它训练的东西。因此，编码 agent 最先成熟：编译器是免费的验证器，测试套件是免费的验证器，当答案自己免费检查自己时，你可以不断对着检查打磨直到你击败它。但通过测试从来没有告诉你，这个改动对于一个有着三个未记录的模块存在理由、部署 pipeline 靠一个没人愿意承认是自己写的 cron job 勉强维持的十年老代码库来说，是否是正确的。

那种正确性无法从排行榜上读出来，实际上也无法从任何东西上读出来。你通过在现实世界中运行足够长的时间来学习，才能发现这样一个复杂系统是否有效，而更聪明的模型并不能让世界运行得更快。没人对 Google 规模的东西做单元测试然后相信绿色的勾；你相信它是因为它经受住了多年的真实负载。这样的正确性不仅是私有的，它还是那种资本无法崩塌的缓慢护城河。即使是乐观主义者也承认时钟无法跳过：Noam Brown，OpenAI 推理模型的先驱，最近写道，评估一个 agent 在一年时间跨度上的唯一可靠方法可能就是......运行它一年。

正如 Gabe Pereyra 所说，真正的自动化不只是模型变好。它是产品、模型、工作流和公司一起移动，而这四个中有三个以组织的速度移动。

移动的人是 benchmark 触及不到的部分：让一个怀疑的合伙人改变她处理事务的方式，在重建过程中保持团队团结。这就是为什么当我们招聘 CEO 时，处理人的能力至少和分析能力一样重要，而更聪明的模型不会改变这个权重。反馈是模糊的，时间跨度是数年，信任属于一个人。我知道的每家公司都让所有工程师用上了前沿编码模型，但没有一家以接近那个速度改变其工程组织。采用花了一个季度，那是多么神奇的 token 增长季度啊！但重建正在花费数年。

可见的是正在离开的东西。有价值的工作在结构上是不可见的：任何你能放在排行榜上的东西，你都能针对它训练，所以任何可衡量的东西都已经在走向商品化的路上。这个过程需要时间且永远不会完全，但方向永远不会逆转。用我在 Rippling 的朋友 Matt MacInnis 的金钱术语来说：花在回答通用问题上的 token 几乎一文不值，因为任何人的模型都能回答它，而花在对你公司数据进行推理的 token 价值要高得多，因为它做了你真正想要的事，而不仅仅是看似合理的事。

可见的工作从两个方向被吃掉。从下方，任务饱和：一旦一个工作可以被廉价检查，买家就不再问是哪个模型做的，而开始问它花多少钱，工作就落到了那周最便宜的开源或蒸馏模型上。在它们能产生影响的任何地方，利润率最终都很重要。从上方，实验室正试图让模型吞噬自己的脚手架。检索、在便宜和昂贵调用之间的路由、工具使用，甚至推理策略，所有曾经包裹模型的装置都被拉进权重中，直到包装器就是模型。这就是吸收前沿。利润率压力也反向削减：通用 agent 必须为任何事情做好准备，这很昂贵，而专注的应用可以调整一个工作流直到它运行在一小部分 token 支出上，而且与出售这些 token 的实验室不同，它保留了差价。

所以，我们可以对任何类型的工作问两件事。它的正确性是私有的且建立成本高昂吗，那种只存在于某人数据内部的真相？它是被隔离的吗，锁在你无法进入的系统内？将这些与任务的饱和程度对比，你会得到一个 2x2 矩阵。具有公开答案的饱和工作是商品 token，开源模型拥有它。具有公开答案的前沿工作，编码 benchmark 所在之处，是实验室获胜的地方，因为当评估是免费的，拥有它不算什么。奖品在最后一个角落，不可训练的那个：正确性只存在于私有领域的前沿工作。你可以在托管 AI 原生先驱的推理云中看到它，绝大多数 token 是由定制模型生成的，而不是通用的开源模型。

进入最后那个角落的墙高度各异。单个开发者的玩具代码库是可移植且标准化的，所以攀登很短。银行的生产系统两者都不是，你不会因为在 SWE-Bench Verified 上聪明 2%就获得 root 权限。

能力吃掉了许多东西，但更好的模型不会让私有的基本事实变成公开的。它不持有许可证，不签署责任，也不拥有公司的文件，当答案错误时它不能成为被起诉的一方。智能不是这里的瓶颈。许可是，责任也是。你可以想象一个比任何人都聪明得多的模型，它仍然必须被允许进门，仍然有人必须为它做的事署名。

那扇门有一把锁和一个门闩。锁是环境：你只有在系统内部被信任之后，在安全审查、集成、你署名结果的合同之后，才能验证 AI 是否做了有用的事情。门闩是用户。现在美国大多数医生每天都打开 OpenEvidence，没有任何量的算力能买到这个。实验室明天可以训练一个完美的医疗模型，仍然无法进入医生的习惯，或进入加州大学旧金山分校的决策流程，因为信任是缓慢建立的，基于关系，需要用户的默许，而不是抹去他们的梯度下降。

这也是工作。一个应用通过做不起眼的工作在不可训练的角落赢得它的位置：安排公司的私有现实以便模型可以对其采取行动，给模型提供行动的工具，与客户合作改变其员工的现实。一家带来翻译的公司很难被复制——而翻译永远不会结束。集成和维护持续的时间和关系一样长，由将领域专业工程师和工具放在客户旁边的团队赢得。

举个例子，在一家顶级白鞋律所，仅 M&A 业务每年就运行近千笔交易。出于保密原因和其他许多原因，你不能让数百名助理各自下载客户文件到桌面并要求通用 agent 翻阅它们，即使你能，你学到的将是碎片，一次一个助理的修正，看不到整个交易如何流动。重要的信号存在于交易层面，而交易有一个形状：对于 M&A 是保密协议、条款清单、尽职调查、购买协议、附属文件、交割清单；对于 IP 诉讼，是动议、证据开示、现有技术、更多动议。每个业务领域都有自己的，律师和工具都不能跨领域互换。而律所实际解决的问题位于这一切之上的一个层次：并行运行每个业务领域，就像顶级合伙人同时运行数百个事项，同时引入新事项并培训助理。转型这样一家律所不是一个你可以为其编写评估的单一任务。它需要一个运营者去用数据分析法做，目标极其模糊，反馈不完整，时间跨度很长，在一个不会静止的环境中。

不幸的是，不可见的价值也很难销售，原因与它难以商品化相同：公司无法从外部判断 AI 是否会转型其运营，就像 benchmark 无法判断一样。所以最强的企业停止试图从外部证明它，而是进入内部，对结果定价。Sierra 在其 agent 解决客户问题时收费，将问题踢给人类时不收费，所以价格成为评估，这只有在 Sierra 拥有“已解决“的定义时才有效。Cognition 的 Devin 在软件中采取同样的举措，提供”性能保证“，这只有在你被信任进入的系统中才能为结果提供。

即使是服务 token，每个人都喜欢称之为纯商品的层，也不像商品那样运作。最好的 AI 原生公司将他们的服务集中在一两个提供商（Baseten 或 Fireworks）上，因为每 token 成本按计划商品化，而真实流量下的可靠性和对稀缺算力的保证访问则不会。你在哪里服务是与你使用哪些模型不同的选择。价格是推理中唯一像商品一样运作的部分。

经常提出的一个反对意见是，实验室是你的供应商——为什么它不会以低于成本的价格运行自己的第一方产品来榨干你，或撤销你的 API 访问并自己占领市场？这是绝望论的真实版本，它只有在模型层是单人游戏时才有效。显然不是——它看起来更像一场三个半方的死亡竞赛，一群国际玩家落后六个月的训练，发展联盟规模是去年的 5 倍。客户希望供应商之间有竞争，实验室更想要市场份额而不是让任何一个应用死掉。

你可以在实验室正面交锋的市场中看到这一点。在消费者聊天中，最好的模型从未简单地获胜。ChatGPT 在多年真实竞争中保持领先，它现在失去的份额正在流向 Gemini，靠的是 Android 和搜索的力量，而不是更好的模型。Anthropic，预测市场（和互联网氛围）目前评级为拥有最好模型的公司，在消费者聊天中几乎不是一个因素，而是在企业和编码中建立了自己的业务。如果更好的模型无法在最核心的应用中夺走竞争对手的用户，它就不会通过集成方式穿过医院的记录或银行的责任。公众今天的选择不仅仅基于编码。如果前沿保持拥挤，其上层将是有价值的。

如果工作无法从外部评分，内部的某人必须决定什么甚至是好答案，而这个决定就是整个游戏。足够多的这些决定，写下来，就成为一个 benchmark。Harvey 为法律发布了一个，Sierra 为语音 agent 发布了一个。你通过成为一个领域已经在使用的那个，赢得定义什么对该领域意味着好的权利，这些公司通过真实采用的斗争赢得了这个权利。

决定真金白银的评估是私有的且因公司而异：这家公司，在这种事务上，将接受什么作为好工作，它远未完成，因为法律的深度使任何公共测试相形见绌。OpenEvidence 正在确定安全的临床答案是什么样的。这些都不是真正的衡量，这是关于什么是真的什么是好的判断，写下来直到它成为其他所有人被衡量的标准，以及基础实验室无论多聪明都无法编写它，因为那种地位只存在于该领域内部。这种权威倾向于落在它已经坐的地方。资深律师编写法律 benchmark。定义安全临床答案落在医生身上。而已解决意味着任何已经拥有客户的公司说它意味着什么。

吸收前沿不断上升，因为我们不断学习衡量更多的工作，可衡量的被吃掉。不可训练的地面在站在它上面的任何人脚下缩小，所以你无法找到一个可防御的点然后休息。你不断向任何还不能被评分的东西迈进，你不断重新承保。在一个狭窄的任务上，用你的私有数据和你自己的评估，你可以训练到前沿并在重要的地方击败通用模型，那个专业模型成为护城河的一部分。另一方面，在通用模型上竞争是一场资本战争，你会输给拥有最多算力的人，这是拥有浅层访问和可见任务的公司的陷阱。它承诺在通用任务范围内超越前沿训练以求生存的那一天，赢家似乎最由数据中心规模决定，结局通常不是独立冠军而是卖给算力丰富的人。

所有这些都是防御。更难的是进攻，选择首先构建什么。这就是我花一年时间寻找的，我可能找到三次。模型在这里没有帮助。它会做你指向的任何事情，但不能告诉你什么值得指向，你无法 benchmark 那个，所以你无法训练它。这也是现有企业不会拿走一切的原因：他们保持他们拥有的地盘，下一个东西来自在我们其余人之前发现用途的人。也许意图是比算力更稀缺的投入。

绝望论对了一半。薄包装层确实正在被吸收，今天看起来像公司的很多东西都是薄包装。它对剩下什么是错误的。机制是清楚的；目的地不是。我会押注的是方向：智能不断变便宜，价值不断滑向模型无法到达的少数地方。不可训练的是有历史的价值。所以进入一个，做不起眼的翻译，开始写下那里什么意味着好，因为某人会去做。今年被引用最多的 benchmark 分数是一张即将变得一文不值的领土地图，以及一个关于谁即将失去说什么算作好的权利的通知。

市场机遇

Gensyn实时价格 (AI)

$0.02721

$0.02721$0.02721

+2.48%

USD

Gensyn (AI) 实时价格图表

完成预测交易，解锁大奖资格

奖池高达 $500,000，100% 中奖！

免责声明: 本网站转载的文章均来源于公开平台，仅供参考。这些文章不代表 MEXC 的观点或意见。所有版权归原作者所有。如果您认为任何转载文章侵犯了第三方权利，请联系 crypto.news@mexc.com 以便将其删除。MEXC 不对转载文章的及时性、准确性或完整性作出任何陈述或保证，并且不对基于此类内容所采取的任何行动或决定承担责任。转载材料仅供参考，不构成任何商业、金融、法律和/或税务决策的建议、认可或依据。