文章作者、来源:深潮 TechFlow 导读:当大模型在所有榜单上都开始碾压人类,投资人开始陷入一种绝望:除了 Anthropic 和英伟达,还有什么值得投?这位硅谷顶级投资人用数据和案例说明,真正的护城河不在榜单上——它藏在那些无法被 benchmark 衡量的地方。 2026 年中,投资者版本的 AI 精神错乱是一文章作者、来源:深潮 TechFlow 导读:当大模型在所有榜单上都开始碾压人类,投资人开始陷入一种绝望:除了 Anthropic 和英伟达,还有什么值得投?这位硅谷顶级投资人用数据和案例说明,真正的护城河不在榜单上——它藏在那些无法被 benchmark 衡量的地方。 2026 年中,投资者版本的 AI 精神错乱是一

AI 投资人的 2026 焦虑:当模型吞噬一切,创业公司的护城河还剩什么?

2026/06/11 12:35
阅读时长 24 分钟
如需对本内容提供反馈或相关疑问,请通过邮箱 crypto.news@mexc.com 联系我们。

文章作者、来源:深潮 TechFlow

导读:当大模型在所有榜单上都开始碾压人类,投资人开始陷入一种绝望:除了 Anthropic 和英伟达,还有什么值得投?这位硅谷顶级投资人用数据和案例说明,真正的护城河不在榜单上——它藏在那些无法被 benchmark 衡量的地方。

2026 年中,投资者版本的 AI 精神错乱是一种绝望:没什么值得投了,我们应该把所有钱投给 Anthropic 和英伟达然后回家。

我从未有过这种感觉。我已经确信模型比我聪明好几个子版本了,我很乐意以市场价买入 Anthropic 和英伟达,我所有最聪明的朋友都相当确信自我改进很快就会成功——但我仍然感受不到这种绝望。

这种绝望并不愚蠢。逻辑是这样的:如果模型在所有事情上都持续变好,那么每家建立在它之上的公司都只是一层薄薄的包装,等待被吸收,唯一能存活的价值就是算力和前沿权重。

以软件为例,这是绝望论者最倚重的案例。Devin 在 2024 年发布时只能解决标准软件 benchmark 上 13%的任务,基本被无视。一年半后,最好的 agent 能达到 80 多分,它们正在高盛和美国陆军内部做真实工作。几乎所有人都得出了同样的错误教训:模型吃掉了软件工程。但当模型吞噬了软件工程中最容易衡量的部分时,我们正在重新认识到许多团队早就知道的事——工程一直抗拒衡量,最容易衡量的部分可能不是唯一重要的部分。

MIT 的 Mert Demirer 及其合作者终于给出了数字:在超过 10 万名开发者中,最新的编码 agent 让写出的代码量提升了约 180%,而实际发布的代码量提升了约 30%。写代码变便宜了。剩下的部分仍然要通过人,而且很重要。当然,净影响仍然很惊人。

benchmark 是你能衡量的东西,而你能衡量的东西就是你能针对它训练的东西。因此,编码 agent 最先成熟:编译器是免费的验证器,测试套件是免费的验证器,当答案自己免费检查自己时,你可以不断对着检查打磨直到你击败它。但通过测试从来没有告诉你,这个改动对于一个有着三个未记录的模块存在理由、部署 pipeline 靠一个没人愿意承认是自己写的 cron job 勉强维持的十年老代码库来说,是否是正确的。

那种正确性无法从排行榜上读出来,实际上也无法从任何东西上读出来。你通过在现实世界中运行足够长的时间来学习,才能发现这样一个复杂系统是否有效,而更聪明的模型并不能让世界运行得更快。没人对 Google 规模的东西做单元测试然后相信绿色的勾;你相信它是因为它经受住了多年的真实负载。这样的正确性不仅是私有的,它还是那种资本无法崩塌的缓慢护城河。即使是乐观主义者也承认时钟无法跳过:Noam Brown,OpenAI 推理模型的先驱,最近写道,评估一个 agent 在一年时间跨度上的唯一可靠方法可能就是......运行它一年。

正如 Gabe Pereyra 所说,真正的自动化不只是模型变好。它是产品、模型、工作流和公司一起移动,而这四个中有三个以组织的速度移动。

移动的人是 benchmark 触及不到的部分:让一个怀疑的合伙人改变她处理事务的方式,在重建过程中保持团队团结。这就是为什么当我们招聘 CEO 时,处理人的能力至少和分析能力一样重要,而更聪明的模型不会改变这个权重。反馈是模糊的,时间跨度是数年,信任属于一个人。我知道的每家公司都让所有工程师用上了前沿编码模型,但没有一家以接近那个速度改变其工程组织。采用花了一个季度,那是多么神奇的 token 增长季度啊!但重建正在花费数年。

可见的是正在离开的东西。有价值的工作在结构上是不可见的:任何你能放在排行榜上的东西,你都能针对它训练,所以任何可衡量的东西都已经在走向商品化的路上。这个过程需要时间且永远不会完全,但方向永远不会逆转。用我在 Rippling 的朋友 Matt MacInnis 的金钱术语来说:花在回答通用问题上的 token 几乎一文不值,因为任何人的模型都能回答它,而花在对你公司数据进行推理的 token 价值要高得多,因为它做了你真正想要的事,而不仅仅是看似合理的事。

可见的工作从两个方向被吃掉。从下方,任务饱和:一旦一个工作可以被廉价检查,买家就不再问是哪个模型做的,而开始问它花多少钱,工作就落到了那周最便宜的开源或蒸馏模型上。在它们能产生影响的任何地方,利润率最终都很重要。从上方,实验室正试图让模型吞噬自己的脚手架。检索、在便宜和昂贵调用之间的路由、工具使用,甚至推理策略,所有曾经包裹模型的装置都被拉进权重中,直到包装器就是模型。这就是吸收前沿。利润率压力也反向削减:通用 agent 必须为任何事情做好准备,这很昂贵,而专注的应用可以调整一个工作流直到它运行在一小部分 token 支出上,而且与出售这些 token 的实验室不同,它保留了差价。

所以,我们可以对任何类型的工作问两件事。它的正确性是私有的且建立成本高昂吗,那种只存在于某人数据内部的真相?它是被隔离的吗,锁在你无法进入的系统内?将这些与任务的饱和程度对比,你会得到一个 2x2 矩阵。具有公开答案的饱和工作是商品 token,开源模型拥有它。具有公开答案的前沿工作,编码 benchmark 所在之处,是实验室获胜的地方,因为当评估是免费的,拥有它不算什么。奖品在最后一个角落,不可训练的那个:正确性只存在于私有领域的前沿工作。你可以在托管 AI 原生先驱的推理云中看到它,绝大多数 token 是由定制模型生成的,而不是通用的开源模型。

进入最后那个角落的墙高度各异。单个开发者的玩具代码库是可移植且标准化的,所以攀登很短。银行的生产系统两者都不是,你不会因为在 SWE-Bench Verified 上聪明 2%就获得 root 权限。

能力吃掉了许多东西,但更好的模型不会让私有的基本事实变成公开的。它不持有许可证,不签署责任,也不拥有公司的文件,当答案错误时它不能成为被起诉的一方。智能不是这里的瓶颈。许可是,责任也是。你可以想象一个比任何人都聪明得多的模型,它仍然必须被允许进门,仍然有人必须为它做的事署名。

那扇门有一把锁和一个门闩。锁是环境:你只有在系统内部被信任之后,在安全审查、集成、你署名结果的合同之后,才能验证 AI 是否做了有用的事情。门闩是用户。现在美国大多数医生每天都打开 OpenEvidence,没有任何量的算力能买到这个。实验室明天可以训练一个完美的医疗模型,仍然无法进入医生的习惯,或进入加州大学旧金山分校的决策流程,因为信任是缓慢建立的,基于关系,需要用户的默许,而不是抹去他们的梯度下降。

这也是工作。一个应用通过做不起眼的工作在不可训练的角落赢得它的位置:安排公司的私有现实以便模型可以对其采取行动,给模型提供行动的工具,与客户合作改变其员工的现实。一家带来翻译的公司很难被复制——而翻译永远不会结束。集成和维护持续的时间和关系一样长,由将领域专业工程师和工具放在客户旁边的团队赢得。

举个例子,在一家顶级白鞋律所,仅 M&A 业务每年就运行近千笔交易。出于保密原因和其他许多原因,你不能让数百名助理各自下载客户文件到桌面并要求通用 agent 翻阅它们,即使你能,你学到的将是碎片,一次一个助理的修正,看不到整个交易如何流动。重要的信号存在于交易层面,而交易有一个形状:对于 M&A 是保密协议、条款清单、尽职调查、购买协议、附属文件、交割清单;对于 IP 诉讼,是动议、证据开示、现有技术、更多动议。每个业务领域都有自己的,律师和工具都不能跨领域互换。而律所实际解决的问题位于这一切之上的一个层次:并行运行每个业务领域,就像顶级合伙人同时运行数百个事项,同时引入新事项并培训助理。转型这样一家律所不是一个你可以为其编写评估的单一任务。它需要一个运营者去用数据分析法做,目标极其模糊,反馈不完整,时间跨度很长,在一个不会静止的环境中。

不幸的是,不可见的价值也很难销售,原因与它难以商品化相同:公司无法从外部判断 AI 是否会转型其运营,就像 benchmark 无法判断一样。所以最强的企业停止试图从外部证明它,而是进入内部,对结果定价。Sierra 在其 agent 解决客户问题时收费,将问题踢给人类时不收费,所以价格成为评估,这只有在 Sierra 拥有“已解决“的定义时才有效。Cognition 的 Devin 在软件中采取同样的举措,提供”性能保证“,这只有在你被信任进入的系统中才能为结果提供。

即使是服务 token,每个人都喜欢称之为纯商品的层,也不像商品那样运作。最好的 AI 原生公司将他们的服务集中在一两个提供商(Baseten 或 Fireworks)上,因为每 token 成本按计划商品化,而真实流量下的可靠性和对稀缺算力的保证访问则不会。你在哪里服务是与你使用哪些模型不同的选择。价格是推理中唯一像商品一样运作的部分。

经常提出的一个反对意见是,实验室是你的供应商——为什么它不会以低于成本的价格运行自己的第一方产品来榨干你,或撤销你的 API 访问并自己占领市场?这是绝望论的真实版本,它只有在模型层是单人游戏时才有效。显然不是——它看起来更像一场三个半方的死亡竞赛,一群国际玩家落后六个月的训练,发展联盟规模是去年的 5 倍。客户希望供应商之间有竞争,实验室更想要市场份额而不是让任何一个应用死掉。

你可以在实验室正面交锋的市场中看到这一点。在消费者聊天中,最好的模型从未简单地获胜。ChatGPT 在多年真实竞争中保持领先,它现在失去的份额正在流向 Gemini,靠的是 Android 和搜索的力量,而不是更好的模型。Anthropic,预测市场(和互联网氛围)目前评级为拥有最好模型的公司,在消费者聊天中几乎不是一个因素,而是在企业和编码中建立了自己的业务。如果更好的模型无法在最核心的应用中夺走竞争对手的用户,它就不会通过集成方式穿过医院的记录或银行的责任。公众今天的选择不仅仅基于编码。如果前沿保持拥挤,其上层将是有价值的。

如果工作无法从外部评分,内部的某人必须决定什么甚至是好答案,而这个决定就是整个游戏。足够多的这些决定,写下来,就成为一个 benchmark。Harvey 为法律发布了一个,Sierra 为语音 agent 发布了一个。你通过成为一个领域已经在使用的那个,赢得定义什么对该领域意味着好的权利,这些公司通过真实采用的斗争赢得了这个权利。

决定真金白银的评估是私有的且因公司而异:这家公司,在这种事务上,将接受什么作为好工作,它远未完成,因为法律的深度使任何公共测试相形见绌。OpenEvidence 正在确定安全的临床答案是什么样的。这些都不是真正的衡量,这是关于什么是真的什么是好的判断,写下来直到它成为其他所有人被衡量的标准,以及基础实验室无论多聪明都无法编写它,因为那种地位只存在于该领域内部。这种权威倾向于落在它已经坐的地方。资深律师编写法律 benchmark。定义安全临床答案落在医生身上。而已解决意味着任何已经拥有客户的公司说它意味着什么。

吸收前沿不断上升,因为我们不断学习衡量更多的工作,可衡量的被吃掉。不可训练的地面在站在它上面的任何人脚下缩小,所以你无法找到一个可防御的点然后休息。你不断向任何还不能被评分的东西迈进,你不断重新承保。在一个狭窄的任务上,用你的私有数据和你自己的评估,你可以训练到前沿并在重要的地方击败通用模型,那个专业模型成为护城河的一部分。另一方面,在通用模型上竞争是一场资本战争,你会输给拥有最多算力的人,这是拥有浅层访问和可见任务的公司的陷阱。它承诺在通用任务范围内超越前沿训练以求生存的那一天,赢家似乎最由数据中心规模决定,结局通常不是独立冠军而是卖给算力丰富的人。

所有这些都是防御。更难的是进攻,选择首先构建什么。这就是我花一年时间寻找的,我可能找到三次。模型在这里没有帮助。它会做你指向的任何事情,但不能告诉你什么值得指向,你无法 benchmark 那个,所以你无法训练它。这也是现有企业不会拿走一切的原因:他们保持他们拥有的地盘,下一个东西来自在我们其余人之前发现用途的人。也许意图是比算力更稀缺的投入。

绝望论对了一半。薄包装层确实正在被吸收,今天看起来像公司的很多东西都是薄包装。它对剩下什么是错误的。机制是清楚的;目的地不是。我会押注的是方向:智能不断变便宜,价值不断滑向模型无法到达的少数地方。不可训练的是有历史的价值。所以进入一个,做不起眼的翻译,开始写下那里什么意味着好,因为某人会去做。今年被引用最多的 benchmark 分数是一张即将变得一文不值的领土地图,以及一个关于谁即将失去说什么算作好的权利的通知。

市场机遇
Gensyn 图标
Gensyn实时价格 (AI)
$0.02721
$0.02721$0.02721
+2.48%
USD
Gensyn (AI) 实时价格图表

完成预测交易,解锁大奖资格

完成预测交易,解锁大奖资格完成预测交易,解锁大奖资格

奖池高达 $500,000,100% 中奖!

免责声明: 本网站转载的文章均来源于公开平台,仅供参考。这些文章不代表 MEXC 的观点或意见。所有版权归原作者所有。如果您认为任何转载文章侵犯了第三方权利,请联系 crypto.news@mexc.com 以便将其删除。MEXC 不对转载文章的及时性、准确性或完整性作出任何陈述或保证,并且不对基于此类内容所采取的任何行动或决定承担责任。转载材料仅供参考,不构成任何商业、金融、法律和/或税务决策的建议、认可或依据。

MEXC×持牌券商:真实美股已上线

MEXC×持牌券商:真实美股已上线MEXC×持牌券商:真实美股已上线

用USDT买入真实美股,100%持股享分红权益,上线期间0费率