灵魂的科学探索 - 第13章 神经网络

作者: 弗兰西斯·克里克14,844】字 目 录

的操作过程中是不恰当的,脑的硬件与软件之间并没有明显的差异。对于这种探讨的一种合理的解释是,虽然脑的活动是高度并行的,在所有这些平行操作的顶端有某些形式的(由注意控制的)序列机制,因而,在脑的操作的较高层次,在那些远离感觉输入的地方,可以肤浅地说脑与计算机有某种相似之处。

人们可以从一个理论途径的成果来对它作判断。计算机按编写的程序执行,因而擅长解决诸如大规模数字处理、严格的逻辑推理以及下棋等某些类型的问题。这些事情大多数人都没有它们完成得那么快、那么好。但是,面对常人能快速、不费气力就能完成的任务,如观察物体并理解其意义,即便是最现代的计算机也显得无能为力。

近几年在设计新一代的、以更加并行方式工作的计算机方面取得了重要进展。大多数设计使用了许多小型计算机,或是小型计算机的某些部件。它们被连接在一起,并同时运行。由一些相当复杂的设备来处理小计算机之间的信息交换并对计算进行全局控制。像天气预测等类似问题,其基本要素在多处出现。此时超级计算机特别有用。

人工智能界也采取了行动设计更具有脑的特点的程序。他们用一种模糊逻辑取代通常计算中使用的严格的逻辑。命题不再一定是真的或假的,而只需是具有更大或更小的可能性。程序试图在一组命题中发现具有最大可能性的那种组合,并以之作为结论,而不是那些它认为可能性较小的结论。

在概念的设置上,这种方法确实比早期的人工智能方法与脑更为相像,但在其他方面,特别是在记忆的存贮上,则不那么像脑。因此,要检查它与真实的脑在所有层次上行为的相似性可能会有困难。

一群原先很不知名的理论工作者发展了一种更具有脑的特性的方法。如今它被称为pdp方法(即平行分布式处理)。这个话题有很长的历史,我只能概述一二。在1943年沃仑·麦卡洛克(warrencmcculloch)和沃尔特·皮兹(walterpitts)的工作是这方面最早的尝试之一。他们表明,在原则上由非常简单的单元连接在一起组成的“网络”可以对任何逻辑和算术函数进行计算。因为网络的单元有些像大大简化的神经元,它现在常被称作“神经网络”。

这个成就非常令人鼓舞,以致它使许多人受到误导,相信脑就是这样工作的。或许它对现代计算机的设计有所帮助,但它的最引人注目的结论就脑而言则是极端错误的。

下一个重要的进展是弗兰克·罗森布拉特(frankrosenblatt)发明的一种非常简单的单层装置,他称之为感知机(perceptron)。意义在于,虽然它的连接最初是随机的,它能使用一种简单而明确的规则改变这些连接,因而可以教会它执行某些简单的任务,如识别固定位置的印刷字母。感知机的工作方式是,它对任务只有两种反应:正确或是错误。你只需告诉它它所作出的(暂时的)回答是否正确。然后它根据一种感知机学习规则来改变其连接。罗森布拉特证明,对于某一类简单的问题——“线性可分”的问题——感知机通过有限次训练就能学会正确的行为。

由于这个结果在数学上很优美,从而吸引了众人的注目。只可惜它时运不济,它的影响很快就消退了。马文·明斯基(marvinminsky)和西摩·佩伯特(segmourpapert)证明感知机的结构及学习规则无法执行“异或问题”(如,判断这是苹果还是桔子,但不是二者皆是),因而也不可能学会它。他们写了一本书,通篇详述了感知机的局限性。这在许多年内扼杀了人们对感知机的兴趣(明斯基后来承认做得过分了)。此问大部分工作将注意力转向人工智能方法。①

用简单单元构建一个多层网络,使之完成简单的单层网络所无法完成的异或问题(或类似任务),这是可能的。这种网络必定具有许多不同层次上的连接,问题在于,对哪些最初是随机的连接进行修改才能使网络完成所要求的操作。如果明斯基和佩伯特为这个问题提供了解答,而不是把感知机打入死路的话,他们的贡献会更大些。

下一个引起广泛注意的发展来自约翰·霍普菲尔德(johnhop-field),一位加利福尼亚州理工学院的物理学家,后来成为分子生物学家和脑理论家。1982年他提出了一种网络,现在被称为霍普菲尔德网络(见图53)。这是一个具有自反馈的简单网络。每个单元只能有两种输出:一1(表示抑制)或十1(表示兴奋)。但每个单元具有多个输入。每个连接均被指派一个特定的强度。在每个时刻单元把来自它的全部连接的效果(2)总和起来。如果这个总和大于0则置输出状态为十1(平均而言,当单元兴奋性输入大于抑制性输人时,则输出为正),否则就输出一1。有些时候这意味着一个单元的输出会因为来自其他单元的输入发生了改变而改变。

尽管如此,仍有不少理论工作者默默无闻地继续工作。这其中包括斯蒂芬.格罗斯伯格(stephengrossberg),吉姆·安德森(jimanderson),托伊沃.科霍宁(teuvokohonen)和戴维·威尔肖(devidwillshaw)。(2)每个输入对单元的影响是将当前的输入信号(+1或-1)与其相应的权值相乘而得到的。(如果当前信号是-1,权重是+2,则影响为-2。)

计算将被一遍遍地反复进行,直到所有单元的输出都稳定为止。①在霍普菲尔德网络中,所有单元的状态并不是同时改变的,而是按随机次序一个接一个进行,霍普菲尔德从理论上证明了,给定一组权重(连接强度)以及任何输入,网络将不会无限制地处于漫游状态,也不会进入振蕩,而是迅速达到一个稳态。①

霍普菲尔德的论证令人信服,表达也清晰有力。他的网络对数学家和物理学家有巨大的吸引力,他们认为终于找到了一种他们可以涉足脑研究的方法(正如我们在加利福尼亚州所说的)。虽然这个网络在许多细节上严重违背生物学,但他们并不对此感到忧虑。

如何调节所有这些连接的强度呢?194年,加拿大心理学家唐纳德·赫布(donaldhebb)出版了《行为的组织》一书。当时人们就像现在一样普遍相信,在学习过程中,一个关键因素是神经元的连接(突触)强度的调节。赫布意识到,仅仅因为一个突触是活动的,就增加其强度,这是不够的。他期望一种只在两个神经元的活动相关时才起作用的机制。他的书中有一个后来被广泛引用的段落:“当细胞a的一个轴突和细胞b很近,足以对它产生影响,并且持久地、不断地参与了对细胞b的兴奋,那么在这两个细胞或其中之一会发生某种生长过程或新陈代谢变化,以致于a作为能使b兴奋的细胞之一,它的影响加强了。”这个机制以及某些类似规则,现在称为“赫布律”。

霍普菲尔德在他的网络中使用了一种形式的赫布规则来调节连接权重。对于问题中的一种模式,如果两个单元具有相同的输出,则它们之间的相互连接权重都设为+1。如果它们具有相反的输出,则两个权重均设为-1。大致他说,每个单元激励它的“朋友”并试图削弱它的“敌人”。

霍普菲尔德网络是如何工作的呢?如果网络输入的是正确的单元活动模式,它将停留在该状态。这并没有什么特别的,因为此时给予它的就是答案。值得注意的是,如果仅仅给出模式的一小部分作为“线索”,它在经过短暂的演化后,会稳定在正确的输出即整个模式上,在不断地调节各个单元的输出之后,网络所揭示的是单元活动的稳定联系。最终它将有效地从某些仅仅与其存贮的“记忆”接近的东西中恢复出该记忆,此外,这种记忆也被称作是按“内容寻址”的——即它没有通常计算机中具有的分离的、唯一用于作为“地址”的信号。输入模式的任何可察觉的部分都将作为地址。这开始与人的记忆略微有些相似了。

请注意记忆并不必存贮在活动状态中,它也可以完全是被动的,因为它是镶嵌在权重的模式之中的即在所有各个单元之间的连接强度之中。网络可以完全不活动(所有输出置为0),但只要有信号输入,网络突然活动起来并在很短时间内进入与其应当记住的模式相对应的稳定的活动状态。据推测,人类长期记忆的回忆具有这种一般性质(只是活动模式不能永久保持)。你能记住大量现在一时想不起来的事情。

神经网络(特别是霍普菲尔德网络)能“记住”一个模式,但是除此以外它还能再记住第二个模式吗?如果几个模式彼此不太相似,一个网络是能够全部记住这几个不同模式,即给出其中一个模式的足够大的一部分,网络经过少数几个周期后将输出该模式。因为任何一个记忆都是分布在许多连接当中的,所以整个系统中记忆是分布式的。因为任何一个连接都可能包含在多个记忆中,因而记忆是可以叠加的。此外,记忆具有鲁棒性,改变少数连接通常不会显著改变网络的行为。

为了实现这些特性就需要付出代价,这不足为奇。如果将过多的记忆加到网络之中则很容易使它陷入混乱。即使给出线索,甚至以完整的模式作为输入,网络也会产生毫无意义的输出。①

有人提出这是我们做梦时出现的现象(弗洛伊德称之为“凝聚”——condensation),但这是题外话。值得注意的是,所有这些特性是“自然发生”的。它们并不是网络设计者精心设置的,而是由单元的本性、它们连接的模式以及权重调节规则所决定的。

霍普菲尔德网络还有另一个性质,即当几个输人事实上彼此大致相似时,在适当计算网络的连接权重后,它“记住”的将是训练的模式的某种平均。这是另一个与脑有些类似的性质。对我们人类而言,当我们听某个特定的声调时,即便它在一定范围内发生变化,我们也会觉得它是一样的。输入是相似但不同的,而输出——我们所听到的——则是一样的。

这些简单网络是不能和脑的复杂性相提并论的,但这种简化确实使我们可能对它们的行为有所了解,即使是简单网络中出现的特点也可能出现在具有相同普遍特性的更复杂的网络中,此外,它们向我们提供了多种观点,表明特定的脑回路所可能具有的功能。例如,海马中有一个称为ca3的区域,它的连接事实上很像一个按内容寻址的网络。当然,这是否正确尚需实验检验。

有趣的是,这些简单的神经网络具有全息图的某些特点。在全息图中,几个影像可以彼此重叠地存贮在一起;全息图的任何一部分都能用来恢复整个图像,只不过清晰度会下降;全息图对于小的缺陷是鲁棒的。对脑和全息图两者均知之甚少的人经常会热情地支持这种类比。几乎可以肯定这种比较是没有价值的。原因有两个。详细的数学分析表明神经网络和全息图在数学上是不同的。更重要的是,虽然神经网络是由那些与真实神经元有些相似的单元构建的,没有证据表明脑中具有全息图所需的装置或处理过程。(1)

一本更新的书产生了巨大的冲击力,这就是戴维·鲁梅尔哈特(davidrumelhart)、詹姆斯·麦克莱兰(jamesmcclelland)和pdp小组所编的一套很厚的两卷著作《平行分布式处理》(1)。该书于1986年问世,并很快至少在学术界成为最畅销书。名义上我也是pdp小组的成员,并和浅沼智行(chikoasanuma)合写了其中的一个章节。不过我起的作用很小。我几乎只有一个贡献,就是坚持要求他们停止使用神经元一词作为他们网络的单元。

加利福尼亚州立大学圣迭戈分校心理系离索尔克研究所仅有大约一英里。在70年代末80年代初我经常步行去参加他们的讨论小组举行的小型非正式会议。那时我时常漫步的地方如今已变成了巨大的停车场。生活的步伐越来越快,我现在已改为驱车飞驰于两地之间了。

研究小组当时是由鲁梅尔哈特和麦克莱兰领导的,但是不久麦克莱兰就离开前往东海岸了。他们俩最初都是心理学家,但他们对符号处理器感到失望并共同研制了处理单词的“相互作用激励器”的模型。在克里斯托夫·朗格特-希金斯(christopherlonguet-higgins)的另一位学生杰弗里·希尔顿(geoffreyhinton)的鼓励下,他们着手研究一个更加雄心勃勃的“联结主义”方案。他们采纳了平行分布式处理这个术语,因为它比以前的术语——联想记忆②——的覆盖面更广。

在人们发明网络的初期,一些理论家勇敢地开始了尝试。他们把一些仍显笨拙的小型电子回路(其中常包括有老式继电器

打 印】 【来源:读书之家-dushuzhijia.com】

首页上一页12 345下一页末页共5页/10000条记录