神经病与神经网络(5)
众所周知,我的杂谈在写完之后通常是没有人看的。然而前段时间,一位姑且还算是比较熟悉的网友突然找上门来,质疑我在之前的一系列杂谈(因为太多这里就不挨个放链接了)里把人脑和神经网络进行比较的做法。他的观点是:虽然“人工神经网络”这个名字听起来像是和大脑有什么关系,但实际上只是计算机科学家们在硬蹭某种“智能”的名头,本质上和大脑的真实运作机制关系不大。毕竟,大脑既不会做梯度下降,也没有什么明确的ground truth,所以拿神经网络的运行方式去类比大脑就完全不贴切,顶多算是一种牵强的思想实验。
我当时就觉得这个说法不太对劲。人工神经网络之所以在发明的时候能被命名为Artificial Neural Network,本身就说明它在最初设计时确实借鉴了真实神经元的树突-胞体-轴突结构、阈值响应的模式以及信号分层传播的方式等概念。尽管它在后续发展中加入了卷积、注意力机制等更偏计算机科学的产物,但这些都无法抹去其最初的生物学灵感。换言之,它和大脑之间的相似性是历史事实,而不是我自己凭空臆造出来的。
当然,我也必须承认对方的担忧有其合理之处。如果硬要把人工神经网络中的某些具体技术细节硬套在人脑上,那确实会产生一些问题,比如:人工神经网络依赖梯度下降和反向传播来优化参数,以降低loss函数的数值;而大脑显然不会在每次思考后都立刻做一遍矩阵运算,然后更新到最优的突触权重。再者,人类真实大脑中神经元的数量和连接都远远超过了任何号称是“大模型”的人工神经网络,其中复杂的环路拓扑结构也不是分层式的人工神经网络所能比拟的。此外,诸如神经递质的化学调控,以及各种复杂的电生理机制等,也都远超人工神经网络所能模拟的范围。所以如果有人因此担心这种类比会造成对大脑理解产生偏差的话,那我觉得确实不无道理。
但即便如此,我还是想要强调:如果我们不去过分拘泥于这些细节,而是稍微把视角拉高,把那些具体的算法和实现方式放到一边的话,就会发现两者在宏观机制上仍旧存在某种高度的相似性。比如,人工神经网络虽然依靠梯度下降来更新参数,但其核心逻辑与大脑的学习过程一样,都是通过负反馈来修正偏差、不断调整行为模式;同样,大脑中的奖赏—惩罚机制与强化学习的原理也极为相似,都是通过对“成功”与“失败”的结果加权,来逐步塑造合适的反应倾向。因此,虽然它们在底层实现上确实没什么相似之处,但在“如何从经验中修正行为”这一点上,却呈现出惊人的相似性。所以我认为,其实问题的核心并不在于“大脑是否和人工神经网络一样使用梯度下降”这种细枝末节的问题上,而在于“它们是否都遵循某种广义上的误差修正机制”。如果我们能把“人工神经网络”理解为一种更抽象的、广义的信息处理框架,而不是仅仅局限于感知机、卷积或Transformer等具体实现方式的话,那么大脑就完全可以被看作是一个更复杂、更高维、更黑箱的神经网络。而它们的不同之处仅仅在于:真实大脑的训练方式和内部机制,以我们目前的脑科学和精神药理学水平,还远远未能彻底解明罢了。
如果接受了这种说法,那么接下来的问题就是:这种宏观上的相似性究竟意味着什么?在我看来,它至少揭示了这样一个事实:无论是对于真实大脑还是人工神经网络,“学习”的本质都依赖于某种“输入—输出—反馈”的闭环。大脑里的神经递质释放与受体调节,与人工网络里的参数更新与梯度下降,虽然在实现层面上看完全不是一个东西,但它们至少都遵循着“错误修正—逐步逼近”的底层逻辑,并且不断反过来重新改变和塑造系统本身。也正因如此,我们才能在大脑中也观察到某种类似于“过拟合”的现象:比如,强迫症患者会在特定念头或行为上形成异常稳定的神经环路,即使这种反复思考和动作在现实中已无适应价值,但他们的大脑仍会不断“重播”同一模式,难以泛化到更灵活的应对方式;再比如,药物成瘾患者的大脑奖赏系统会对特定化学物质产生过度特化(表现为受体数量和敏感度的下调),使其逐渐偏向单一刺激的追求与反应。久而久之,这些大脑就像是训练失败的模型一样陷入到某种固定的模式之中,完全丧失泛化能力。这和神经网络在训练数据上的过拟合,本质上又有多大区别呢?
当然,仅仅停留在这种比喻式的相似还不够。要想真正说明“大脑和神经网络在宏观机制上存在共性”,我们可能还需要一个更为具体的例子。这里,我能想到的最接近的概念就是近年来备受关注的“先验知识嵌入”问题。在人工神经网络中,为了解决老大难的可解释性问题,以及一些加快收敛、减少数据量的需求,研究者常常会把一些抽象的规律预先植入模型,这些规律就是所谓的“先验知识”。可是这些“先验知识”又从何而来呢?无非是人类大脑在漫长的学习和抽象过程中,最终总结提炼出的成果。无论是真实世界的数学、物理公式,还是某些更抽象的语法规则,从本质上说都是大脑对复杂经验的压缩,是某种更加高维的、便于在人类之间理解与传递知识的认知结构。这样一来,所谓的“先验知识嵌入”也就变成了一种类似于神经网络之间的teacher-student关系:人脑这个庞大而复杂的神经网络充当教师,把自己辛苦总结出的抽象框架传授给机器这个学生;而在人工神经网络中,那些本该依赖海量数据才能自行归纳出的规律,在人类提供的结构性提示的帮助下,就可以显著缩短学习路径。换句话说,在“如何跨网络传递与固化知识”这一点上,真实大脑和人工神经网络呈现出惊人的一致性。因此,我倾向于认为:人脑不仅仅是一种更复杂的神经网络,还是一个“正在训练其他神经网络的神经网络”。这种teacher-student的迁移模式,本身就是两者在宏观机制上共性的最好例证。
虽然真实大脑和神经网络在宏观上确实存在某些相似性,那就像群友说的那样,我们也不能粗暴地把它们直接画上等号。为了说明这一点,我常常会借用物理学家们最喜欢的一个类比——“鸟和飞机”。众所周知,飞机最早的确是从模仿鸟类飞行开始起家的,但随着材料学与空气动力学的发展,人类制造出的飞机在结构上早已与鸟毫无相似之处。然而即便如此,我们依旧可以说“鸟是一种更复杂的飞机”,因为它们都受制于同一套流体力学的规律,解决的也都是同一个问题:如何把重量托举到空中。而且,就像“真实大脑VS神经网络”的关系一样,即使是最拙劣的鸟类,其飞控系统的精密程度也远远超越了今天最先进的战斗机:它们能在天空中稳定悬停,能以极低的能耗完成急停和转弯,能随时在树枝间极小的落点精准着陆……这些能力都是现代飞行器望尘莫及的(参考内容)。而神经网络与大脑之间的关系,大体也是如此:今天的人工神经网络,确实已经和生物神经元的微观机制没有直接的对应关系;但在更高层次的抽象上,它们仍旧同属于“信息处理系统”,都遵循着同一套“输入—输出—反馈”的普遍逻辑。至于那些具体的实现方式——是梯度下降也好,是神经递质调控也罢——或许不过是历史演化与工程路径上的差异,就像鸟的翅膀和飞机的发动机的区别一样。
不过,这里也必须承认一个事实:类比归类比,科学归科学。正如群友批评的那样,“类比不是科学方法”。如果把真实大脑直接套进神经网络的技术细节里,那确实没有任何实证意义;但若完全拒绝类比,又未免少了一些想象力和启发性。所以,在文章的结尾,我还是想把自己立场总结清楚:
- 神经网络和神经是否相似?
- 是的,在某种宏观层面上,它们都表现为一种基于反馈调节的自组织系统,都会在输入与经验的作用下不断调整自身结构。
- 能不能用神经网络完全解释神经?
- 不能,至少在现阶段不行,因为我们目前既不了解人脑的全部机制,也没有一种人工模型能够模拟那样复杂的电化学交互。
- 但神经是否可以被视作一种更广义、更复杂的神经网络?
- 我倾向于说是,因为“神经网络”作为一种概念,本就不该局限于某个具体的算法或架构,它更像是一种抽象的信息处理模式,而人脑正是这种模式的极端复杂化版本。
- 至于这种类比是否有科学意义?
- 我必须承认——至少现在没有。也许也正因为如此,它才会出现在我的杂谈里,而不是任何一本严肃的教科书上。