Geoffrey Hinton被公认是人工智能的教父,数十年前他就支持和推动了机器学习,随着像ChatGPT这样的聊天机器人引起广泛关注,CBS的主持人于2023年3月初在多伦多的Vector研究所采访了Hinton。
最近,全长40分钟的采访视频被放了出来,整个采访干货满满,非常精彩。作者对采访内容进行了翻译整理,和大家分享。
答:我认为这是一个关键时刻。ChatGPT表明,这些大型语言模型可以做一些令人惊奇的事情。普通公众突然开始关注这个领域,因为微软发布了一些产品,他们突然意识到了大公司在过去五年里所知道的东西。
答:在ChatGPT前,我已经使用了许多类似的东西,所以ChatGPT并没有让我感到惊讶。GPT-2(这是早期的一种语言模型)让我惊讶,谷歌的一个模型也让我惊讶,它实际上可以解释为什么一个笑话很好笑。它用自然语言告诉你为什么一个笑话很好笑。当然,并非所有笑话都可以,但对于很多笑话,它都可以告诉你为什么它们好笑。
问:如果ChatGPT并不那么令人惊讶或令人印象深刻,那么您对公众对它的反应感到惊讶吗?因为反应很大。
答:是的,我认为每个人都有点惊讶于反应如此之大。这是最快增长的应用程序。也许我们不应该感到惊讶,但研究人员已经习惯于这些东西实际上是有效的。
答:其实不然。在AI领域,有两种思路。一种是主流AI,另一种是关于神经网络的。主流AI认为,AI是关于推理和逻辑的,而神经网络则认为,我们最好研究生物学,因为那些才是真正有效的东西。所以,主流AI基于推理和逻辑制定理论,而我们基于神经元之间的连接变化来学习制定理论。从长远来看,我们取得了成功,但短期内看起来有点无望。
答:我当时可以说,但那并不能说服人们。我可以说,神经网络在20世纪80年代没有真正奏效的唯一原因是计算机运行速度不够快,数据集不够大。然而,在80年代,一个重要的问题是,一个拥有大量神经元的大型神经网络,计算节点和它们之间的连接,仅通过改变连接的强度,从数据中学习,而没有先验知识,这是否可行?主流AI的人认为这完全荒谬。尽管这听起来有点荒谬,但它确实有效。
答:因为大脑就是这样。你必须解释我们是如何做到这些事情的,以及我们是如何做到那些我们没有进化出来的事情的,比如阅读。阅读对我们来说是非常新近的,我们没有足够的进化时间来适应它。但我们可以学会阅读,我们可以学会数学。所以一定有一种在这些神经网络中学习的方法。
问:昨天,曾与您共事的Nick告诉我们,您并不是真正对创建AI感兴趣,您的核心兴趣是理解大脑是如何工作的。
答:是的,我真的想了解大脑是如何工作的。显然,如果你关于大脑工作原理的错误理论带来了好的技术,你可以利用这一点来获得资助。但我真的想知道大脑是如何工作的。我认为目前人工神经网络与大脑实际工作原理之间存在一定的分歧。我认为它们现在走的是不同的道路。
问:但所有大型模型现在都使用一种叫做反向传播的技术,而这种技术是您帮助推广的。
答:我认为大脑并不是在做这个。有两条通往智能的不同道路。一条是生物学途径,另一条是我们所拥有的模拟硬件途径。我们必须用自然语言进行沟通,还要向人们展示如何做事情,模仿等。但我们在交流方面做得很糟糕,与现在运行在数字计算机上的计算机模型相比,我们的交流能力差得多。计算机模型之间的沟通带宽非常大,因为它们是相同模型的克隆,运行在不同的计算机上。正因为如此,它们可以查看大量的数据,因为不同的计算机可以查看不同的数据,然后它们结合了它们所学到的东西,远远超出了任何人能够理解的范围。尽管如此,我们仍然比它们聪明。
答:对,ChatGPT知道的比任何一个人都多。如果有一个关于知识量的比赛,它会轻松击败任何一个人。它在智力竞赛中表现出色,可以写诗,但在推理方面并不擅长。我们在推理方面做得更好。我们必须从更少的数据中提取我们的知识。我们有100万亿个连接,其中大部分是通过学习得到的,但我们只活了十亿秒,这并不算很长的时间。像ChatGPT样的东西,它们在许多不同的计算机上运行了比我们更长的时间,吸收了所有这些数据。
问:1986年,您在《自然》杂志上发表了一篇文章,提出了一个想法:我们将拥有一个由单词组成的句子,并预测最后一个单词。
答:是的,那是第一个语言模型,基本上就是我们现在在做的事情。1986年是很久以前的事情了。
答:因为那时候,如果你问我用多少数据训练了那个模型,我有一个简单的家庭关系模型,有112个可能的句子,我用其中的104个进行了训练,然后检查它是否正确预测了最后8个。它在预测最后8个方面表现得相当好,比符号AI更好。问题是那时候的计算机还不够强大。现在的计算机速度快了数百万倍,可以进行数百万倍的计算。我做了一个小计算,如果我拿1986年的计算机去学习一些东西,它现在仍在运行,但还没有完成。现在,学习这些东西只需要几秒钟。
答:我并不知道,但我相信那可能是我们的制约因素。但人们对这样的说法嗤之以鼻,好像这是一个借口:「如果我有更大的计算机和更多的数据,一切都会好起来。现在它不起作用是因为我们没有足够的数据和计算能力。」这种观点被当作对事物无法正常运作的一种狡辩。
答:在90年代,计算机在不断发展,但是那时确实有其他学习技术,在小型数据集上表现得和神经网络一样好,而且更容易解释,背后有更为复杂的数学理论。所以,在计算机科学领域,人们对神经网络失去了兴趣。但在心理学领域,他们仍然对神经网络感兴趣,因为心理学家对人类可能如何学习感兴趣,这些其他技术甚至比反向传播还不合理。
问:这是您背景的一个有趣部分,您之所以投身于这个领域,并非因为对计算机感兴趣,而是因为对大脑感兴趣。
答:是的,我原本对心理学感兴趣,后来我决定,如果不了解大脑,我们永远无法理解人类。在70年代,有一种时髦的观点认为,你可以在不关心大脑的情况下做到这一点,但我觉得那是不可能的。你必须了解大脑是如何运作的。
问:现在我们快进到2000年代,您回顾过去,是否认为有一个关键时刻,当时您觉得我们这一方将在这场争论中获胜?
答:大约在2006年,我们开始做所谓的深度学习。在那之前,让具有多层表示的神经网络学会复杂事物一直很困难。我们找到了更好的方法来实现这一点,更好的初始化网络的方法,称为预训练。在ChatGPT中,P代表预训练。T代表变换器,G代表生成。实际上,是生成模型为神经网络提供了更好的预训练方法。2006年时,这个理念的种子已经埋下,到了2009年,我们已经研发出了比最好的语音识别器更好的东西,用与其他所有语音识别器不同的技术识别您说的哪个音素。
答:实际上2012年发生了两件大事。其中一项研究始于2009年,是由我的两名学生在暑假进行。