Ilya Sutskever专访 | AI终将超越人类？至少，在这些方面不会。

“你可以对政治毫无兴趣，可你必须确信：政治对你却太有兴趣，政治绝不会因为你对政治不关心而放过你。所以，假如你不想作戏台上一具可怜的傀儡，给别人随心所欲地推来推去，你就别无选择——必须关心政治。这其实就是关心你自己。”

——

《新华日报》1945年9月11日

2025年，Ilya Sutskever在加拿大多伦多大学为毕业生演讲时，便引用了类似的话语。

他的原话是：”You may not take interest in politics, but politics will take interest in you. So the same applies to AI, many times over.”

“你可以不关心 AI，

但 AI 一定会影响你，

而且影响程度会远超政治。”

2025年11月26日，知名科技博主Dwarkesh Patel在他的播客上采访了这位深度学习领域的权威专家，Ilya Sutskever——他同时也是OpenAI的前首席科学家。

本篇是对采访中精华内容的翻译。

一个15岁的人类在「理解」上远比AI透彻，也不会犯AI那种低级错误。

Dwarkesh Patel：我感觉，模型看起来很聪明，但这种聪明并没有从它的*经济效应上体现出来。

*在Dwarkesh Patel 12月24日的播客上，他分享了如下内容，“要知道，全世界的知识工作者每年可创造数十万亿美元的价值。而AI实验室目前的产出，距离这个数字差了好几个数量级，原因在于：模型的能力，还远远达不到能替代人类知识工作者的程度。”

Ilya Sutskever：的确。

这相当令人困惑。你要如何调和这个矛盾：模型在评测时明明很优秀，题目那么难，它仍表现惊艳，但在另外的场景下，它又会犯各种低级错误？

举个例子，你在用模型*「Vibe Coding」时，遇到了一个bug，于是你说，“帮我修一下这个bug。”模型：“天哪，你说的对，有个bug，我来修好它。”……过一会儿，又有个新的 bug，你告诉了模型，它回复：“是啊，我怎么搞的？你又说对了。”然后把第一个 bug 带了回来。接下来，你们就在这两个bug之间来回折腾。

*vibe coding，OpenAI联合创始人Andrej Karpathy在今年2月份的一篇社媒帖子中首创了这个词。11月，这个词被《柯林斯词典》正式收录为2025 年年度词汇。《柯林斯词典》将其归类为名词和俚语，定义为：“借助（人类日常说的、写的）自然语言提示人工智能来协助编写计算机代码的行为。”

为什么会这样呢？我有两种可能的解释。

比较天马行空的一种是： *RL（强化学习）训练让模型变得过于专注、狭隘，以至于它反而对最基本的东西视而不见、总是在一些简单的任务上翻车，尽管在其它方面它又更敏感、更善于捕捉特定的信息。

*RL（强化学习），Pokee.ai创始人、斯坦福强化学习博士朱哲清曾在采访中说过：

“RL的独特之处在于其学习方式，并非单纯从海量数据学习。Ronald Parr举过一个下棋的例子。RL的学习不是基于人类对弈数据的模仿，而是通过自我对弈，从环境中得到反馈并优化未来的决策策略。这种学习方式与人类和动物的学习方式非常相似。”

另一种解释是，早期我们做预训练（pre-training），是所有数据一股脑投喂，并不需要纠结用哪些数据。但RL（强化学习）不一样，你得思考，因为，不同任务可能需要不同的RL训练策略。据我所知，各家公司都有专门的团队去设计新的 RL 环境，然后把它加入现有的训练组合里。但问题是，自由度实在太高了——理论上，你可以设计出各种各样的 RL 环境，可能性多到让人无从下手。

于是，人们往往不自觉从评测集中寻找灵感。你会想，如果要让模型在发布时表现亮眼、在评测时拿高分，该采用什么样的RL训练？我认为这种情况确实在发生，再结合——模型在泛化能力上存在不足——或许就能解释我们看到的很多现象，也就是评测成绩和实际应用表现之间的脱节。

Dwarkesh Patel：我喜欢这个说法：「*奖励黑客（reward hacking）」的始作俑者，其实是那些过度关注评测的人类研究员。

北大校友、前OpenAI 安全副总裁翁荔在自己的博客文章《Reward Hacking in Reinforcement Learning》中写道：“在强化学习中，当Agent（智能体）利用奖励函数中的漏洞（俗称‘钻空子’）来获得奖励，却并没有真正学会我们原本想让它学习的事情，这就是「奖励黑客」。”

对此，她举了一个例子，在训练抓取任务时，机器人并没有真的抓住物体，而是把机械臂挡在物体和相机之间，骗过了视觉评估系统。

我觉得可以从两个角度去理解你刚刚所说的。

一个是，如果仅仅依靠在编程竞赛中达到超人类水平，并不能让模型自动具备更好的品味或判断力，那么你就应该扩展训练环境，使得测试本身不再局限于竞赛。你还应该考虑，模型如何落地到真实场景中，应对X、Y、Z等等类型各异的任务。

此外，也许你在暗示这个：凭什么认为，赢得编程比赛就能让你成为一个更有品味的程序员呢？我们要做的，并不是持续堆砌各种训练环境，而是找到一种方法，让模型能把从一个环境中学到的经验，迁移到其它任务中。

Ilya Sutskever：我有一个人类的类比，可能会更直观一些。你刚才提到竞技编程，我们就用这个例子。假设有两个学生——

学生A立志要成为最强的竞技程序员，然后ta花了10000个小时来练习，几乎把竞赛领域的所有知识点和技能都训练到了极致。

学生B偶然接触到这个领域，觉得“挺酷的”。而后ta在上面投入了100个小时，远远少于前者，但ta也表现得很好。

那么，你觉得，这两人谁在未来的职业发展会更好？

Dwarkesh Patel：第二个。

Ilya Sutskever：没错。

当前的模型就像第一个学生，甚至更极端。因为一旦以竞赛表现为目标，我们会把所有能找到的题目，统统拿来训练它。然后，做数据增强，生成更多变体题目，继续训练……于是，你得到了一个考试高手。但离开考试，它能把能力泛化到现实的应用场景中吗？答案是未必。

Dwarkesh Patel：但是，在那 100 小时的“打磨”之前，第二个学生本身是在做什么？有没有一个合适的类比？

Ilya Sutskever：我认为ta们有那种“it” factor，所谓的“天赋/潜质”。我本科时就认识这样的人，所以我知道它确实存在。

Dwarkesh Patel：有人把模型的预训练类比为人类生命中最初的十几年——比如 13 、15 或 18 岁之前的阶段。虽然谈不上经济产出，但正在通过各种经历逐步形成对世界的认知。也有人把进化看作一场持续30亿年的搜索，其结果是人类的诞生。

我想问的是，你觉得这些和预训练有可比性吗？如果不是预训练，你会怎么理解人的终生学习？

Ilya Sutskever：它们俩和预训练确实有相通的地方，不过，我还是倾向于认为，预训练在人类身上没有对应的类比。

预训练用到的数据量非常、非常巨大。而每天都在吸收、学习的人类，哪怕到了15岁，ta知道的东西，与AI相比都微不足道。但是，无论ta接触到什么，在「理解」上都远比AI透彻，也不会犯AI那种低级错误。

然后，在第二个类比中，我认为进化兴许还更有优势。我记得我以前读到过：神经科学家对于大脑的知识，是通过研究不同脑区受损的患者来获得的。

有些人会出现你意想不到的奇特症状。例如，因为脑损伤、中风或意外，某个人丧失了情感处理的能力。他仍口齿清晰，能做简单的智力题，在测试中也正常，但他就是感受不到任何情绪，无论是悲伤、生气，还是活力。他的决策能力也变得极差，就连穿哪双袜子都要花1个多小时来做决定，更别提财务这一块了。

从根本上，这是否说明：正是与生俱来的情感，使我们得以成为一个能自主行动并做出最优判断的个体？而AI能否通过预训练获得「它」，我们至今仍无法确定。

进化给了我们那一小部分最有用的「精华」……

Dwarkesh Patel：在机器学习的语境里，有没有可以类比人类情感的东西？

Ilya Sutskever：最接近的可能是「价值函数」，但我不觉得这是一个特别贴切的类比。因为，在当下的机器学习中，价值函数并没有像情感之于人类那样被重视。

电影《机器管家》（1999）

Dwarkesh Patel：也许有必要给观众解释一下什么是价值函数，如果你愿意的话。

Ilya Sutskever：当然，我很乐意。

在强化学习（RL）中，一般是抛出问题，然后告诉AI模型，“给我一个解决方案。”接着，模型给出的方案会被打分。这个分数会作为一种奖惩信号反馈到模型「*思考轨迹」的每一步。但问题是，如果任务很长、很复杂，那么，在最终方案出现之前，模型是学不到任何东西的。这便是最原始的RL。

那么，价值函数有什么作用呢？……举个例子：下棋时，你丢了一枚子，就会立刻意识到，“刚刚走错了。”而不必等到整盘棋都下完才做出判断。

价值函数正类似于此，它让AI在探索的中途——你比如说，到1000个*token的时候——就“意识”到“这个思路行不通”。

然后，这个判断就作为奖惩信号，反馈到最初决策的那一步，也就是1000个token之前。下次，AI打从一开始就会避开此类路径，而不是把整条“思考轨迹”完整跑完（可能要数千、数十万的token）再从中学习。

*token：AI 模型处理文本的基本单位，可以理解为模型”思考”的最小单元。它不完全等同于我们理解的字符或单词，而是模型自己的一种特殊的文本分割方式。

我刚才提到那个情绪中枢受损的人，其实是想表达：人类也有类似某种“价值函数”的机制，而情绪正是进化赋予我们的、用来调控它的方式。这或许也是人能够在复杂世界中保持有效行动的原因。

Dwarkesh Patel：我们来聊聊「泛化」。

为什么学同样的东西，模型需要的数据远比人类多？抛开数据不谈，你教一个人类学子，也不像“教”模型那样费劲……为什么会这样？

模型依赖于各种奖励信号，但人只要和导师一起讨论，就能吸收、内化后者的思维方式。

Ilya Sutskever：我们完全可以这样理解：人类之所以具备如此高的采样效率（sample efficiency），很可能是源于「进化」本身。进化给了我们那一小部分最有用的「精华」，而视觉、听觉和运动能力正是其中之一。

举个例子，人类的「灵巧度」远超……我的意思是，机器人通过大量模拟训练也能变得灵巧。但要让机器人在现实世界里像人类般快速掌握一项新技能，目前几乎不可能。在这点上，你可以说：啊，是的。我们的祖先个个都得能跑能跳（不然根本活不下来），比如松鼠。

所以，人类在运动控制上，有着得天独厚的进化“先验”。

视觉同样如此。我记得 *Yann LeCun 说过，一个孩子练十个小时就能学会开车，这话没错。但关键其实不在于（后天）练习，而是我们的（先天）视觉系统实在太强大了。

*Yann LeCun，Meta 首席AI 科学家、2018年图灵奖（Turing Award）得主。

你比如说，我5岁时就对汽车充满了兴趣和好奇。5岁幼童能接触到的“数据”其实非常有限，大部分时间你都在家里。但我敢说，那时我对车已经有了相当丰富的视觉感知：它长什么样、如何在空间中移动……

所以，你只能从进化层面去理解这种先天优势。不过，到了语言、数学和编程方面，就未必适用了。

Dwarkesh Patel：但似乎还是比AI有优势。我是说，模型在语言、数学和编程上固然比普通人厉害。但说到学习能力，AI未必胜过人类？

Ilya Sutskever：哦，对，完全没错。我想说的是，语言、数学和编程……尤其是数学和编程，让人类擅长学习的，很可能不是某种复杂的先验，而是一种更基础的能力。

Dwarkesh Patel：那是什么？

Ilya Sutskever：你看，一个技能如果在数百万、甚至上亿年的进化史中对我们的祖先有用，那你可以说，人类之所以擅长它，是因为进化赋予了我们某种先验。

但如果人类在一个直到近代才出现的领域表现出色、发挥稳定，那么这更说明，人类本身就拥有更强的“机器学习能力”。

Dwarkesh Patel：真的很有意思——人类需要的样本更少，也更偏向自主探索。比方说，青少年学开车，你不需要像训练AI那样预设各种可验证的奖励，ta们就是会通过和汽车、环境的互动自然获得反馈。但对于人工智能来说则很难，这是为什么？

我们该怎样重新概念化对AI的训练，才能实现类似的效果？

Ilya Sutskever：好问题，我对此有一箩筐的想法。

但就目前的大环境而言，我不认为它可以被自由、公开地讨论。

此外，一个潜在的障碍是：人类神经元的计算能力，也许比我们想象的要更强。

如果真是这样，并且这是一个决定性要素的话，那实现起来会更加困难。但无论如何，我仍相信，人类学习机制的背后存在着某种类似机器学习的原理，人类能做到，本身就是对其可实现性的证明。

无论它如何进化、变得多么强大，始终都能关心、在意「有感知能力的生命（ sentient life）」。

Dwarkesh Patel：通用人工智能（AGI）和超级人工智能（Superhuman Intelligence），它们的区别是什么？我这么问，是因为人类对它们的忌惮程度似乎不太相同。我不认为背后仅仅是某种「*回形针」效应。

*回形针是AI 安全领域的一个著名思想实验，由哲学家、牛津大学人类未来研究院的创始人Nick Bostrom提出。

它设想了一个极端情境：：当人类给AI布置制造回形针的任务，AI可能会为了最大化回形针的产量，彻底无视其他价值与约束，疯狂、不惜一切代价地去完成这件事，甚至将人类本身也视为可被利用的原材料。

Ilya Sutskever：我认为是语言塑造了思维。

我有两个词想解释。第一个是通用人工智能（*AGI）；第二个是预训练（pre-training）。

“AGI”这个术语为什么会存在？首先，它并非描述某种终极智能状态的重要术语，它的出现，是为了回应另一个概念：*narrow AI，也就是窄人工智能。

*AGI即Artificial General Intelligence，通用型人工智能。

*narrow AI，也叫狭义AI、专用型AI，仅专注于某项特定任务。

回溯AI 和游戏的发展历史，你会看到，没错，古早的AI能打败Kasparov（卡斯帕罗夫，国际象棋特级大师），但除此以外，它什么都做不了。于是有人就说：“这样不行，太局限了，我们需要的是一个能做各种事情的、通用型人工智能。”这个术语（AGI）因此流行起来。

第二个获得广泛关注的词汇是预训练。在我看来，当前备受推崇的强化学习（RL）路径，可能正在削弱模型在预训练阶段形成的那种「通用性」。预训练原本是为了让模型的能力变得更全面，而不仅仅是擅长于特定的任务/评测。

但是，在这个领域里，有一些不太符合实际的期待。如果你仔细思考“AGI”这个词，你会意识到，（尽管我们的初衷是创造出类人的通用智能，但是反过来看）人类并不是AGI。的确，人类有一些基本技能，但我们的知识体量并不大。我们依赖的是持续学习（continual learning）。

那么，问题来了，假设我们成功创造出了某种安全的超级「智能」，我们该如何定义它？它会在持续学习曲线上的哪个阶段？

我所设想的超级智能，它最开始可能更接近于一个15岁的青少年，懂的东西不多，但非常聪明、求知欲强。它要去探索、学习如何成为程序员或医生，所以你看，这本身包含着试错、调整，它是一个过程，而不是一个可以直接扔出去的「成品」。

Dwarkesh Patel：我明白了。

最初的 OpenAI 宪章或其它文件对于AGI的定义是：人类能做的每一件事，它都能做。

但你现在提出的，并不是那种“一出厂就能胜任任何工作”的、无所不能的心智，而是能够通过「学习」、从「不会」到「会」……这才是「超级智能」。

Ilya Sutskever：是的。

Dwarkesh Patel：那么，如果我们真的造出了这种智能体——它像人类一样擅长学习，但又能把无数个“自己”融合在一起，这是人类大脑做不到的——那它的成长速度会非常、非常地惊人。

我的问题是：怎样才能让这件事往「好的方向」发展？为什么 *SSI 认为自己有能力把这件事做好？

在从OpenAI 离职后，Ilya Sutskever 创办了一家公司叫 Safe Superintelligence（SSI），“安全超级智能”。

Ilya Sutskever：我的部分想法在发生改变，其中之一是：与其执着于成熟、完美的AI，不如让它更早进入现实，循序渐进地被使用。

我们在聊的是“尚不存在的系统”，所以你很难去想象它，更别提去“感受”它。正如我们可以谈论变老是什么样的，可以去想象，但你很难有实感，因为你所处的现实会把你拉回来。

人类无法预测、想象AI到底会有多强大，即使是大多数从事 AI 行业的人也不能。过去这一年里，我越发意识到这一点，保守地说，我们公司的战略也许也会受此影响，所以该怎么做呢？

我的做法就是，把它展示出来，让公众看到它。

前沿公司和政府会起到很重要的作用。你会看到，有些互相竞争的公司开始合作，推动 AI 安全——像 OpenAI 和 Anthropic 的小尝试，就是这种趋势的信号。

然后，从更宏观的层面，而不只是从 SSI 的角度，得问：作为研发公司，我们应该构建什么样的AI？

一个从众的答案是「自我改进型」AI。我们都被裹挟其中。为什么会这样呢？因为「创见」不如公司多。但我坚持认为，其实还有更值得去构建的东西。

无论它如何进化、变得多么强大，始终都能关心、在意「有感知能力的生命（ sentient life）」。这是我期冀的AI。我也特别相信，构建一个关爱所有此类生命的 AI，比仅仅关心人类的 AI 更自然也更容易——因为AI 本身也将具备感知能力。

也许我们可以参照“镜像神经元”，以及人类对于动物的共情（你可以说这种共情是有限的，但它确实存在），而我认为，这就是一种*涌现，它来源于一个事实：我们会沿用理解自我、处理自己感受的同一套大脑回路，去理解、共情其他的人或事物。去对其他的人或事物进行建模、理解。

*根据知乎计算机大拿汪子熙的解释：涌现特性（Emergent property）是指在一个复杂系统中，一些新的、意想不到的特性逐渐显现出来，这些特性在系统的各个组成部分中并不存在。在人工智能（AI）模型中，涌现特性通常是指模型通过大量数据训练后，展现出一些在训练数据中没有明确指示的能力或行为。

Dwarkesh Patel：最后一个问题。

从 AlexNet，到 GPT-3等其它成果，你显然是许多深度学习大事件的共同创作者。那么，作为 AI 领域公认的、最有研究品味的人之一，你认为，什么是“研究品味”？以及，你的各种想法是如何诞生的，是否有一个方法论？

Ilya Sutskever：我只能谈谈我自己的看法。

对我而言，关于「AI 应该成为什么样子」的审美判断一直在指引我。这种判断来源于对人的思考（借鉴），但前提是有效的思考。

何为有效呢？举个例子——大脑有很多要素，有血管、胶质细胞、层层叠叠的褶皱，但你会想，对于人类这个智能体来说，什么才是重要的？并不是那些褶皱吧，那么，是神经元吗？毕竟它们的数量如此庞大……于是，我们有了「人工神经元」。

同理，如果我们要基于人类这个学习系统去设计AI，那就要有一个全局的、自上而下的把握。要思考，对于哪些方面的借鉴和迁移才是最关键的——例如，神经元之间的局部学习规则，大脑的分布式表征。如果大脑是靠经验来学习的，那我们设计的神经网络，也理应如此。

对应你说的「研究品味」，我在寻找的，几乎就是「美（beauty）」。

美、简洁、优雅，还有对于大脑的正确借鉴。当所有这些要素同时具备，我才会确信：我们的方向是对的。

有了这种全局的、自上而下的把握，你才不至于只见树木、不见森林。

因为，有时候实验就是会失败，也许你在做对的事，只不过是遇到了一个bug。那么，你是选择完全相信数据呢，还是做出自己的判断。这就是所谓的“top-down belief”。

Leave a Reply Cancel reply