“你可以对政治毫无兴趣,可你必须确信:政治对你却太有兴趣,政治绝不会因为你对政治不关心而放过你。所以,假如你不想作戏台上一具可怜的傀儡,给别人随心所欲地推来推去,你就别无选择——必须关心政治。这其实就是关心你自己。”
——
《新华日报》1945年9月11日
2025年,Ilya Sutskever在加拿大多伦多大学为毕业生演讲时,便引用了类似的话语。
他的原话是:”You may not take interest in politics, but politics will take interest in you. So the same applies to AI, many times over.”
“你可以不关心 AI,
但 AI 一定会影响你,
而且影响程度会远超政治。”
2025年11月26日,知名科技博主Dwarkesh Patel在他的播客上采访了这位深度学习领域的权威专家,Ilya Sutskever——他同时也是OpenAI的前首席科学家。
本篇是对采访中精华内容的翻译。

一个15岁的人类在「理解」上远比AI透彻,也不会犯AI那种低级错误。
Dwarkesh Patel:我感觉,模型看起来很聪明,但这种聪明并没有从它的*经济效应上体现出来。
*在Dwarkesh Patel 12月24日的播客上,他分享了如下内容,“要知道,全世界的知识工作者每年可创造数十万亿美元的价值。而AI实验室目前的产出,距离这个数字差了好几个数量级,原因在于:模型的能力,还远远达不到能替代人类知识工作者的程度。”
Ilya Sutskever:的确。
这相当令人困惑。你要如何调和这个矛盾:模型在评测时明明很优秀,题目那么难,它仍表现惊艳,但在另外的场景下,它又会犯各种低级错误?
举个例子,你在用模型*「Vibe Coding」时,遇到了一个bug,于是你说,“帮我修一下这个bug。”模型:“天哪,你说的对,有个bug,我来修好它。”……过一会儿,又有个新的 bug,你告诉了模型,它回复:“是啊,我怎么搞的?你又说对了。”然后把第一个 bug 带了回来。接下来,你们就在这两个bug之间来回折腾。
*vibe coding,OpenAI联合创始人Andrej Karpathy在今年2月份的一篇社媒帖子中首创了这个词。11月,这个词被《柯林斯词典》正式收录为2025 年年度词汇。《柯林斯词典》将其归类为名词和俚语,定义为:“借助(人类日常说的、写的)自然语言提示人工智能来协助编写计算机代码的行为。”

为什么会这样呢?我有两种可能的解释。
比较天马行空的一种是: *RL(强化学习)训练让模型变得过于专注、狭隘,以至于它反而对最基本的东西视而不见、总是在一些简单的任务上翻车,尽管在其它方面它又更敏感、更善于捕捉特定的信息。
*RL(强化学习),Pokee.ai创始人、斯坦福强化学习博士朱哲清曾在采访中说过:
“RL的独特之处在于其学习方式,并非单纯从海量数据学习。Ronald Parr举过一个下棋的例子。RL的学习不是基于人类对弈数据的模仿,而是通过自我对弈,从环境中得到反馈并优化未来的决策策略。这种学习方式与人类和动物的学习方式非常相似。”
另一种解释是,早期我们做预训练(pre-training),是所有数据一股脑投喂,并不需要纠结用哪些数据。但RL(强化学习)不一样,你得思考,因为,不同任务可能需要不同的RL训练策略。据我所知,各家公司都有专门的团队去设计新的 RL 环境,然后把它加入现有的训练组合里。但问题是,自由度实在太高了——理论上,你可以设计出各种各样的 RL 环境,可能性多到让人无从下手。
于是,人们往往不自觉从评测集中寻找灵感。你会想,如果要让模型在发布时表现亮眼、在评测时拿高分,该采用什么样的RL训练?我认为这种情况确实在发生,再结合——模型在泛化能力上存在不足——或许就能解释我们看到的很多现象,也就是评测成绩和实际应用表现之间的脱节。
Dwarkesh Patel:我喜欢这个说法:「*奖励黑客(reward hacking)」的始作俑者,其实是那些过度关注评测的人类研究员。
北大校友、前OpenAI 安全副总裁翁荔在自己的博客文章《Reward Hacking in Reinforcement Learning》中写道:“在强化学习中,当Agent(智能体)利用奖励函数中的漏洞(俗称‘钻空子’)来获得奖励,却并没有真正学会我们原本想让它学习的事情,这就是「奖励黑客」。”
对此,她举了一个例子,在训练抓取任务时,机器人并没有真的抓住物体,而是把机械臂挡在物体和相机之间,骗过了视觉评估系统。
我觉得可以从两个角度去理解你刚刚所说的。
一个是,如果仅仅依靠在编程竞赛中达到超人类水平,并不能让模型自动具备更好的品味或判断力,那么你就应该扩展训练环境,使得测试本身不再局限于竞赛。你还应该考虑,模型如何落地到真实场景中,应对X、Y、Z等等类型各异的任务。
此外,也许你在暗示这个:凭什么认为,赢得编程比赛就能让你成为一个更有品味的程序员呢?我们要做的,并不是持续堆砌各种训练环境,而是找到一种方法,让模型能把从一个环境中学到的经验,迁移到其它任务中。
Ilya Sutskever:我有一个人类的类比,可能会更直观一些。你刚才提到竞技编程,我们就用这个例子。假设有两个学生——
学生A立志要成为最强的竞技程序员,然后ta花了10000个小时来练习,几乎把竞赛领域的所有知识点和技能都训练到了极致。
学生B偶然接触到这个领域,觉得“挺酷的”。而后ta在上面投入了100个小时,远远少于前者,但ta也表现得很好。
那么,你觉得,这两人谁在未来的职业发展会更好?
Dwarkesh Patel:第二个。
Ilya Sutskever:没错。
当前的模型就像第一个学生,甚至更极端。因为一旦以竞赛表现为目标,我们会把所有能找到的题目,统统拿来训练它。然后,做数据增强,生成更多变体题目,继续训练……于是,你得到了一个考试高手。但离开考试,它能把能力泛化到现实的应用场景中吗?答案是未必。
Dwarkesh Patel:但是,在那 100 小时的“打磨”之前,第二个学生本身是在做什么?有没有一个合适的类比?
Ilya Sutskever:我认为ta们有那种“it” factor,所谓的“天赋/潜质”。我本科时就认识这样的人,所以我知道它确实存在。
Dwarkesh Patel:有人把模型的预训练类比为人类生命中最初的十几年——比如 13 、15 或 18 岁之前的阶段。虽然谈不上经济产出,但正在通过各种经历逐步形成对世界的认知。也有人把进化看作一场持续30亿年的搜索,其结果是人类的诞生。
我想问的是,你觉得这些和预训练有可比性吗?如果不是预训练,你会怎么理解人的终生学习?
Ilya Sutskever:它们俩和预训练确实有相通的地方,不过,我还是倾向于认为,预训练在人类身上没有对应的类比。
预训练用到的数据量非常、非常巨大。而每天都在吸收、学习的人类,哪怕到了15岁,ta知道的东西,与AI相比都微不足道。但是,无论ta接触到什么,在「理解」上都远比AI透彻,也不会犯AI那种低级错误。
然后,在第二个类比中,我认为进化兴许还更有优势。我记得我以前读到过:神经科学家对于大脑的知识,是通过研究不同脑区受损的患者来获得的。
有些人会出现你意想不到的奇特症状。例如,因为脑损伤、中风或意外,某个人丧失了情感处理的能力。他仍口齿清晰,能做简单的智力题,在测试中也正常,但他就是感受不到任何情绪,无论是悲伤、生气,还是活力。他的决策能力也变得极差,就连穿哪双袜子都要花1个多小时来做决定,更别提财务这一块了。
从根本上,这是否说明:正是与生俱来的情感,使我们得以成为一个能自主行动并做出最优判断的个体?而AI能否通过预训练获得「它」,我们至今仍无法确定。
进化给了我们那一小部分最有用的「精华」……
Dwarkesh Patel:在机器学习的语境里,有没有可以类比人类情感的东西?
Ilya Sutskever:最接近的可能是「价值函数」,但我不觉得这是一个特别贴切的类比。因为,在当下的机器学习中,价值函数并没有像情感之于人类那样被重视。

电影《机器管家》(1999)
Dwarkesh Patel:也许有必要给观众解释一下什么是价值函数,如果你愿意的话。
Ilya Sutskever:当然,我很乐意。
在强化学习(RL)中,一般是抛出问题,然后告诉AI模型,“给我一个解决方案。”接着,模型给出的方案会被打分。这个分数会作为一种奖惩信号反馈到模型「*思考轨迹」的每一步。但问题是,如果任务很长、很复杂,那么,在最终方案出现之前,模型是学不到任何东西的。这便是最原始的RL。
那么,价值函数有什么作用呢?……举个例子:下棋时,你丢了一枚子,就会立刻意识到,“刚刚走错了。”而不必等到整盘棋都下完才做出判断。
价值函数正类似于此,它让AI在探索的中途——你比如说,到1000个*token的时候——就“意识”到“这个思路行不通”。
然后,这个判断就作为奖惩信号,反馈到最初决策的那一步,也就是1000个token之前。下次,AI打从一开始就会避开此类路径,而不是把整条“思考轨迹”完整跑完(可能要数千、数十万的token)再从中学习。
*token:AI 模型处理文本的基本单位,可以理解为模型”思考”的最小单元。它不完全等同于我们理解的字符或单词,而是模型自己的一种特殊的文本分割方式。
我刚才提到那个情绪中枢受损的人,其实是想表达:人类也有类似某种“价值函数”的机制,而情绪正是进化赋予我们的、用来调控它的方式。这或许也是人能够在复杂世界中保持有效行动的原因。
Dwarkesh Patel:我们来聊聊「泛化」。
为什么学同样的东西,模型需要的数据远比人类多?抛开数据不谈,你教一个人类学子,也不像“教”模型那样费劲……为什么会这样?
模型依赖于各种奖励信号,但人只要和导师一起讨论,就能吸收、内化后者的思维方式。
Ilya Sutskever:我们完全可以这样理解:人类之所以具备如此高的采样效率(sample efficiency),很可能是源于「进化」本身。进化给了我们那一小部分最有用的「精华」,而视觉、听觉和运动能力正是其中之一。
举个例子,人类的「灵巧度」远超……我的意思是,机器人通过大量模拟训练也能变得灵巧。但要让机器人在现实世界里像人类般快速掌握一项新技能,目前几乎不可能。在这点上,你可以说:啊,是的。我们的祖先个个都得能跑能跳(不然根本活不下来),比如松鼠。
所以,人类在运动控制上,有着得天独厚的进化“先验”。
视觉同样如此。我记得 *Yann LeCun 说过,一个孩子练十个小时就能学会开车,这话没错。但关键其实不在于(后天)练习,而是我们的(先天)视觉系统实在太强大了。
*Yann LeCun,Meta 首席AI 科学家、2018年图灵奖(Turing Award)得主。
你比如说,我5岁时就对汽车充满了兴趣和好奇。5岁幼童能接触到的“数据”其实非常有限,大部分时间你都在家里。但我敢说,那时我对车已经有了相当丰富的视觉感知:它长什么样、如何在空间中移动……
所以,你只能从进化层面去理解这种先天优势。不过,到了语言、数学和编程方面,就未必适用了。
Dwarkesh Patel:但似乎还是比AI有优势。我是说,模型在语言、数学和编程上固然比普通人厉害。但说到学习能力,AI未必胜过人类?
Ilya Sutskever:哦,对,完全没错。我想说的是,语言、数学和编程……尤其是数学和编程,让人类擅长学习的,很可能不是某种复杂的先验,而是一种更基础的能力。
Dwarkesh Patel:那是什么?
Ilya Sutskever:你看,一个技能如果在数百万、甚至上亿年的进化史中对我们的祖先有用,那你可以说,人类之所以擅长它,是因为进化赋予了我们某种先验。
但如果人类在一个直到近代才出现的领域表现出色、发挥稳定,那么这更说明,人类本身就拥有更强的“机器学习能力”。
Dwarkesh Patel:真的很有意思——人类需要的样本更少,也更偏向自主探索。比方说,青少年学开车,你不需要像训练AI那样预设各种可验证的奖励,ta们就是会通过和汽车、环境的互动自然获得反馈。但对于人工智能来说则很难,这是为什么?
我们该怎样重新概念化对AI的训练,才能实现类似的效果?
Ilya Sutskever:好问题,我对此有一箩筐的想法。
但就目前的大环境而言,我不认为它可以被自由、公开地讨论。
此外,一个潜在的障碍是:人类神经元的计算能力,也许比我们想象的要更强。
如果真是这样,并且这是一个决定性要素的话,那实现起来会更加困难。但无论如何,我仍相信,人类学习机制的背后存在着某种类似机器学习的原理,人类能做到,本身就是对其可实现性的证明。
无论它如何进化、变得多么强大,始终都能关心、在意「有感知能力的生命( sentient life)」。
Dwarkesh Patel:通用人工智能(AGI)和超级人工智能(Superhuman Intelligence),它们的区别是什么?我这么问,是因为人类对它们的忌惮程度似乎不太相同。我不认为背后仅仅是某种「*回形针」效应。
*回形针是AI 安全领域的一个著名思想实验,由哲学家、牛津大学人类未来研究院的创始人Nick Bostrom提出。
它设想了一个极端情境::当人类给AI布置制造回形针的任务,AI可能会为了最大化回形针的产量,彻底无视其他价值与约束,疯狂、不惜一切代价地去完成这件事,甚至将人类本身也视为可被利用的原材料。

Ilya Sutskever:我认为是语言塑造了思维。
我有两个词想解释。第一个是通用人工智能(*AGI);第二个是预训练(pre-training)。
“AGI”这个术语为什么会存在?首先,它并非描述某种终极智能状态的重要术语,它的出现,是为了回应另一个概念:*narrow AI,也就是窄人工智能。
*AGI即Artificial General Intelligence,通用型人工智能。
*narrow AI,也叫狭义AI、专用型AI,仅专注于某项特定任务。
回溯AI 和游戏的发展历史,你会看到,没错,古早的AI能打败Kasparov(卡斯帕罗夫,国际象棋特级大师),但除此以外,它什么都做不了。于是有人就说:“这样不行,太局限了,我们需要的是一个能做各种事情的、通用型人工智能。”这个术语(AGI)因此流行起来。
第二个获得广泛关注的词汇是预训练。在我看来,当前备受推崇的强化学习(RL)路径,可能正在削弱模型在预训练阶段形成的那种「通用性」。预训练原本是为了让模型的能力变得更全面,而不仅仅是擅长于特定的任务/评测。
但是,在这个领域里,有一些不太符合实际的期待。如果你仔细思考“AGI”这个词,你会意识到,(尽管我们的初衷是创造出类人的通用智能,但是反过来看)人类并不是AGI。的确,人类有一些基本技能,但我们的知识体量并不大。我们依赖的是持续学习(continual learning)。
那么,问题来了,假设我们成功创造出了某种安全的超级「智能」,我们该如何定义它?它会在持续学习曲线上的哪个阶段?
我所设想的超级智能,它最开始可能更接近于一个15岁的青少年,懂的东西不多,但非常聪明、求知欲强。它要去探索、学习如何成为程序员或医生,所以你看,这本身包含着试错、调整,它是一个过程,而不是一个可以直接扔出去的「成品」。
Dwarkesh Patel:我明白了。
最初的 OpenAI 宪章或其它文件对于AGI的定义是:人类能做的每一件事,它都能做。
但你现在提出的,并不是那种“一出厂就能胜任任何工作”的、无所不能的心智,而是能够通过「学习」、从「不会」到「会」……这才是「超级智能」。
Ilya Sutskever:是的。
Dwarkesh Patel:那么,如果我们真的造出了这种智能体——它像人类一样擅长学习,但又能把无数个“自己”融合在一起,这是人类大脑做不到的——那它的成长速度会非常、非常地惊人。
我的问题是:怎样才能让这件事往「好的方向」发展?为什么 *SSI 认为自己有能力把这件事做好?
在从OpenAI 离职后,Ilya Sutskever 创办了一家公司叫 Safe Superintelligence(SSI),“安全超级智能”。
Ilya Sutskever:我的部分想法在发生改变,其中之一是:与其执着于成熟、完美的AI,不如让它更早进入现实,循序渐进地被使用。
我们在聊的是“尚不存在的系统”,所以你很难去想象它,更别提去“感受”它。正如我们可以谈论变老是什么样的,可以去想象,但你很难有实感,因为你所处的现实会把你拉回来。
人类无法预测、想象AI到底会有多强大,即使是大多数从事 AI 行业的人也不能。过去这一年里,我越发意识到这一点,保守地说,我们公司的战略也许也会受此影响,所以该怎么做呢?
我的做法就是,把它展示出来,让公众看到它。
前沿公司和政府会起到很重要的作用。你会看到,有些互相竞争的公司开始合作,推动 AI 安全——像 OpenAI 和 Anthropic 的小尝试,就是这种趋势的信号。
然后,从更宏观的层面,而不只是从 SSI 的角度,得问:作为研发公司,我们应该构建什么样的AI?
一个从众的答案是「自我改进型」AI。我们都被裹挟其中。为什么会这样呢?因为「创见」不如公司多。但我坚持认为,其实还有更值得去构建的东西。
无论它如何进化、变得多么强大,始终都能关心、在意「有感知能力的生命( sentient life)」。这是我期冀的AI。我也特别相信,构建一个关爱所有此类生命的 AI,比仅仅关心人类的 AI 更自然也更容易——因为AI 本身也将具备感知能力。
也许我们可以参照“镜像神经元”,以及人类对于动物的共情(你可以说这种共情是有限的,但它确实存在),而我认为,这就是一种*涌现,它来源于一个事实:我们会沿用理解自我、处理自己感受的同一套大脑回路,去理解、共情其他的人或事物。去对其他的人或事物进行建模、理解。
*根据知乎计算机大拿汪子熙的解释:涌现特性(Emergent property)是指在一个复杂系统中,一些新的、意想不到的特性逐渐显现出来,这些特性在系统的各个组成部分中并不存在。在人工智能(AI)模型中,涌现特性通常是指模型通过大量数据训练后,展现出一些在训练数据中没有明确指示的能力或行为。
Dwarkesh Patel:最后一个问题。
从 AlexNet,到 GPT-3等其它成果,你显然是许多深度学习大事件的共同创作者。那么,作为 AI 领域公认的、最有研究品味的人之一,你认为,什么是“研究品味”?以及,你的各种想法是如何诞生的,是否有一个方法论?
Ilya Sutskever:我只能谈谈我自己的看法。
对我而言,关于「AI 应该成为什么样子」的审美判断一直在指引我。这种判断来源于对人的思考(借鉴),但前提是有效的思考。
何为有效呢?举个例子——大脑有很多要素,有血管、胶质细胞、层层叠叠的褶皱,但你会想,对于人类这个智能体来说,什么才是重要的?并不是那些褶皱吧,那么,是神经元吗?毕竟它们的数量如此庞大……于是,我们有了「人工神经元」。
同理,如果我们要基于人类这个学习系统去设计AI,那就要有一个全局的、自上而下的把握。要思考,对于哪些方面的借鉴和迁移才是最关键的——例如,神经元之间的局部学习规则,大脑的分布式表征。如果大脑是靠经验来学习的,那我们设计的神经网络,也理应如此。
对应你说的「研究品味」,我在寻找的,几乎就是「美(beauty)」。
美、简洁、优雅,还有对于大脑的正确借鉴。当所有这些要素同时具备,我才会确信:我们的方向是对的。
有了这种全局的、自上而下的把握,你才不至于只见树木、不见森林。
因为,有时候实验就是会失败,也许你在做对的事,只不过是遇到了一个bug。那么,你是选择完全相信数据呢,还是做出自己的判断。这就是所谓的“top-down belief”。