文章作者、来源:新智元
通用人工智能AGI,即将到来。
刚刚,OpenAI首席研究官Mark Chen豪言:
在某种意义上,就像希望你能感觉到,AGI(通用人工智能)即将到来……
我们正越来越接近这样一个世界:模型能够自主提出更多创新——它们能够进行自我维持的研究。
这不仅仅是效率的提升,「进化」本身也被外包给了硅基生命。
当Mark Chen在镜头前熟练地切着蘑菇和洋葱时,他谈论的不仅是一碗汤,而是人类文明最后的一块阵地。
如果AI能够自己研究自己,那在AGI到来的前夜,人类究竟该扮演什么角色?
要明白这句话的分量,得先回到Mark入行的那一刻。
2016年,AlphaGo对战李世石。
第二局里有一手「第37手」,落子的瞬间,全人类棋手集体看不懂。
后来才明白,那是机器走出的、人类根本想不到的一手。那一刻点燃了无数人,也把Mark Chen拽进了这个领域。
而如今呢?
「最疯狂的是,」Mark说,「你现在在几乎每一个领域,都能看到『神之一手』。」
数学里有,计算机科学里有,编程里有。
他描述了一个很微妙的时间点:很多人是在今年年初「一觉醒来」,突然意识到:AI agent在我这一行,真的能干活了。
不是玩具。不是demo。是能替你完成有意义的、长周期的真实工作(long-horizon work)。
这意味「模型自己做研究」这件事,不再是科幻片里的桥段。
它是从一连串已经发生的「神之一手」里,自然外推出来的下一步。
你顺着这条线往前看,终点处站着的,就是那个会自己搞研究的模型。
可这种乐观,到底靠什么撑着?
靠一个信念:Scaling曲线还没到头。
这两年,「预训练已死」「语言模型到不了AGI」的论调隔三差五就要冒出来。
Mark Chen对这些唱衰「相当激烈地反对」。
他点破了套路。
「预训练已死」听着很新鲜,其实是部老掉牙的剧本,过去这些年被反复重播。
每一次,都有人指着某个瓶颈说「到顶了,过不去了」;每一次,OpenAI又总能掏出一个新的工程技巧、或某个研究上的新洞见,把那堵墙凿穿。
Mark Chen坚信,「我们正处在指数曲线上。它已经撑过了将近10个数量级,没有任何理由它不会继续撑下去。」
而最有说服力的证据,是OpenAI自己亲手赌赢过一次。
赌的,就是推理(reasoning)。
o1刚立项时,连OpenAI内部都有人不信。
当时「预训练+后训练」的范式太能打了,有人会很自然地问:机器已经转得好好的,何必再去折腾别的?
是Jakub Pachocki、Ilya Sutskever等几个有信念、有判断力的人硬推,才慢慢把它变成全公司的根本性赌注。
一年后,o1出世,推理范式引爆整个行业。
曲线还没到头,加上最大的突破往往来自一开始没人信的赌注,这两条加在一起,就是Mark Chen敢说「模型自我维持研究不远了」的底气。
当模型开始在长达数周、甚至数月的任务上进行思考时,它所产生的创新,可能已经超出了人类专家的认知盲区。
这正是「自我维持科研」的基石:如果它能推导出人类没见过的数学公式,它当然也能写出比人类更优的算法架构。
Vibe Researcher:当执行力变得廉价
我们已经有了vibe coder——动动嘴,让AI写代码。
研究,也在往这个方向滑。
在访谈中,一个极具争议的概念被反复提及:Vibe Researcher(氛围研究员)。
这是一个略带自嘲但深思熟虑的职业预测。
Mark认为,未来的顶级研究员将不再是那个写下每一行PyTorch代码的人,而是那个「拿捏感觉」的人。
无论是OpenAI还是其他实验室,你都开始看到,大量的工作正在变成以「编排」(orchestration)为主。
翻译成人话:人负责出主意,模型负责把活全干完。
研究员动脑子想点子,剩下的实现、执行、调度,模型自己搞定。
OpenAI的三年路线图,终点写得明明白白:让模型做端到端(end-to-end)的研究,从出主意到出成果,全程自己来。
但这条路上,全是还没填平的坑
随着AI能够自主执行和编排(Orchestration)任务,人类的工作将被极限压缩到两端:
1、提出真正的问题。
2、判断AI给出的答案是否有「灵魂」。
这就是所谓的「品味」(Taste)。
因为机器没有「生活」,所以它没有「常识」,也就无从产生「品味」。
但冷静下来想,Mark Chen自己比谁都清楚,这条路远没有铺平。
第一个坑:评测,崩了。
他用了一个内部词,叫「Benchmaxxing」(刷榜)——找一堆和测试集长得几乎一模一样的题,往死里训,分数好看得不得了,泛化能力半点没涨。
更糟的是,公认的金标准benchmark数量太少。
「我们真的处在一场评测危机里。」他说,SAT那种经典测试,对今天的模型全都饱和了。
甚至,一个评测一旦被公开到世界上,它就已经不是好评测了,就像一张印出来就立刻作废的考卷。
应对这一问题的两种策略:
1、将评估创建团队与模型优化团队分离,形成一种对抗性激励。
2、大规模部署模型并观察实际应用中的失败模式。
他还指出,每一项新能力的出现都会伴随着对应的评估需求,而引导评估方向是他工作中相当重要的一部分。
第二个坑:参差的前沿(jagged frontier)。
模型能拿下奥数、信奥级别的难题,却可能搞不定人类随手就能做的琐事,就一个能心算微积分、却不会自己系鞋带的天才。
差在哪?差在「上下文」,差在持续学习(continual learning)——把一个任务里学到的教训,用到下一个任务上。
这对人太自然了,对模型,却是全行业正在死磕的硬骨头。
被问到通往AGI是不是还需要两三个根本性的突破,Mark没接。
他说,持续学习这种东西是「必须解锁的基础能力」,至于算不算"突破"他说不好,但「很多发都已经瞄准了球门,我相当确定它们会进。」
这就是他的态度:坑是真的,每一个坑都已经有人在填,而且他赌填得上。
汤的隐喻:在AGI之后去开个面馆
访谈中最温馨的一幕,是关于「汤」的故事。
据说Mark Zuckerberg曾试图用自制的汤去挖走OpenAI的研究员,而Mark Chen的回应则是:直接把汤带到办公室分给大家。
当被问到AGI实现后的终极愿望时,这位掌管着全球最强大AI大脑的人,回答:
「我想去开个面馆。这可能是我的AGI后爱好。」
这个回答里藏着深意。
当AI能够完成所有「自我维持的科研」,当所有的知识和创新都能以光速产生,人类最稀缺的资源将不再是智力,而是「体验」。
机器可以算出一碗汤的最佳咸度,但它永远无法赋予这碗汤以「温度」和「故事」。
