上一篇杂谈结束的时候我曾经说过,接下来一段时间会以比较愉快的内容为主,刚好十一放假期间因为懒得出门哪也没去,每天水群时间大幅增加,于是在看到一张草图的时候突发奇想,决定写点什么。


此处应有吐槽。

  其实这张草图我已经不是第一次看到,而是在各路赛博吟游诗人的反复转发下已经欣赏了至少三四次的样子 ,然而只有这次才萌生了写点什么的想法,由此可见灵感还是相当重要的(笑)。从传播学的角度说,每张能够在傻吊群友之间组成的去中心化网络上广泛传播的草图,或多或少都有其独到之处。而这张图显然就成功在它不仅切合了当下火爆的雌小鬼梗,而且又完美融入了另一个“河南人偷井盖”梗——可能是中国最古老的地狱(地域?)笑话。这种成功的“梗杂交”最终成功引起了很多人的传播行为,使其在很长一段时间内都能保持大于1的实时传播指数(就是公卫上说的Rt),并且一遍遍地从各种群里传播到本人手机当中。

  呃这样一本正经地分析(胡扯)好没劲,还是直接进入正题吧。我们都知道,中国各地绝对不缺各种基于地域的刻板印象,比如“北京的爷就是爷”、“上海人看不起乡毋宁”、“新疆人卖切糕”等,甚至散装江苏自己内部都能打一架。尽管如此,“河南人偷井盖”由于足够平易近人(换句话说,大家都能轻松明白是什么意思)且过于幽默的特点,很有可能是其中最广为流传的一个。由于本文恰好想要讨论“刻板印象”这一主题,因此“河南人偷井盖”作为其中的典型代表,不可避免地会在接下来的文章中多次出现,并非是本人针对河南人。如果还是不能接受,请自行点击右上角。

  从定义上说,“刻板印象”这个词指的是人们对某个事物或物体形成的一种概括固定的看法,并把这种观点看法推而广之,认为这个事物或者整体都具有该特征,而忽视个体差异的情况。从这个角度上说,“刻板印象”其实非常接近于贝叶斯推理过程,用比较数学的语言描述就是:如果一个分布中具有某种特征的样本较多,那么从该分布中采样的样本也很可能具有某种特征。只不过,由于采样的先验分布存在误差,或者说并不足以覆盖全体样本,因此该推理过程是错误的。

  然而上述观点其实只阐述了一个结论,而忽视了一个更重要的问题:刻板印象是如何形成的?具体而言,一个人不可能非常naturally地凭空生成某种观点,而一定是从什么现象中得出了这一结论,或者至少也是从其他人那里口耳相传地接收到的观点。比起“对某个事物或物体形成一种概括固定的看法”这个结论本身,其实更值得关注的是这一看法的形成过程。而要对这一形成过程有所认识,我们不妨从具体的例子出发,以“河南人偷井盖”为例,来看看这些刻板印象的起源,以及背后的形成原因。

  据网友考证,“河南人偷井盖”这一说法最早大致起源于上世纪八九十年代,因为某些不可描述的原因,有大量的人从河南省逃荒,久而久之在各地形成了一个特殊群体“河南盲流”,主要从事拾荒和废品回收的行当。其中,分布于北京的废品回收人员中,据调查有90%以上都来自河南的固始县。由于废品回收行业也确实内卷,那些养不活自己的人只好 “捡不着就偷,偷不着就抢,污水井盖儿、绿地护栏、变压器、甚至地铁的电缆都给你铰了。”到了上世纪末,拾荒者群体已经贡献了北京市刑事犯罪中的七成,这样的群体自然不会给本地居民留下什么好印象。然而,由于当时人与人的交流渠道尚不畅通,因此这样的早期刻板印象也仅仅在部分首都居民当中口耳相传。不幸的是,本世纪初互联网刚刚普及时,北京人恰好是早期最大的用户群体之一,自然占据了相当大的话语权。于是,大概是在互联网的古早娱乐活动——球迷论坛对骂——中,“河南人偷井盖”这一朗朗上口的成句诞生了。

  写到这里,本文标题中的第二个关键词 “最大似然估计” 终于姗姗来迟。对于这个名词,搞过机器学习的人应该都不会陌生,通俗地说就是在模型已知,但参数未定的情况下,用已知样本结果反推最有可能导致这样结果的参数值。而在“河南人偷井盖”这一案例中,则是广大首都人民基于几个偷井盖的河南人的样本,反推出所有河南人这一分布都具有“喜欢偷井盖”这一属性。如今,处在局外,而且享受着发达的互联网的我们当然能随便找出一万条理由来驳斥这种推论,但假如我们换位思考一下,把自己带入上世纪那种信息不太流通的闭塞环境下,从街坊四邻添油加醋的传播过程中得出这一结论,似乎也确实在所难免。这不禁让我想起在3B1B的这一期视频(说句题外话,这个视频的第三期已经鸽了三年多了) 中,提到的这样一个问题:100%好评率但是只有10个评价的店,与93%好评率但是有100个评价的店,哪个更好?如果从最大似然估计的角度出发,并且假设“给好评”这件事符合二项分布的话,我们当然能轻易得出,前一个店的好评率是100%而后一个是93%。但这样的推理过程似乎忽略了,由于前一个店的数据样本相当少,而且不能保证其来源分布,因此前一个店的方差(风险)相当大,而后一个店相比之下要稳定的多。代入本例,假设喜欢偷井盖也属于二项分布的话,那么从几个偷井盖的河南人样本估计全体河南人都喜欢偷井盖,这一推论在信息有限的情况下显然也是正确的。但也恰恰是这种信息有限,导致这一推论的可靠性实际相当低。而在机器学习过程中,训练集样本太少,以及无法覆盖全体样本分布的问题,也是我们必须时刻注意的大问题。

  如果这篇文章到此结束的话,搞不好也能算是一篇寓教于乐的科普文章,至少也称得上是有些知识含量的吐槽文。然而既然气氛已经铺垫到这里,我觉得接下来的两个问题还是有必要深入讨论一下。第一个问题是,不知道我们有没有注意到原图中不太起眼的一句话。它其实就位于图的正中间,只不过因为太过理中客、不够生草而没有被人注意。“哪么有好人坏人?”,这句话同时也是各地的网友在面对刻板印象时最常为自己辩解的一句话。听起来确实足够理中客,然而我却认为其有失偏颇:一个人真的能简单地用二元的“好”与“坏”来划分吗?就在前些年,社会治安还不像现在这么好的时候,我们还经常能看到一些地方的农民半夜杀人抛尸的新闻。可奇怪的是,其中很多杀人犯在周围的人口中却并非“坏”人,反而是非常“憨厚老实”,“乐于助人”。谈及杀人动机时,他们也只是认为“自己的生活条件太差了”,想“借机改善一下生活”。也许在他们看来,半夜杀人劫财就和白天种地一样,并没有什么本质上的不同。这种人其实与上文中偷井盖的河南人一样,是因为生活在物质条件过于匮乏的地区,为了确保自己与周围的人能尽可能活下去,而长期以来养成了一些“损人利己”的生活习惯。这些习惯通常无法为富裕地区所理解,甚至很大程度上属于犯罪行为,但在他们的世界观中却仅仅像割草一样单纯。对于这些人,我们真的能用简单的“好”与“坏”去评价吗?而在距离中国上万公里之遥的欧洲,一旦处于经济还不错时,立刻就会冒出大量“极端环保”、“极端动保”和“极端人杈”组织;而一旦经济转差,则社会风气立刻全面右转。难道说,是经济下行导致社会上的所有人一夜之间突然变坏了?又或者,其实是社会存在决定了社会意识?

  第二个问题是,从刻板印象作为出发点不难看出,人的主观观点其实具有很大局限性。要克服这种主观影响,大量且多样性的数据收集是必不可少的,这其实有点类似于实际商业中常用的“用户画像”的分析过程。然而,这种分析过程毫无疑问是困难且费时费力的。商业公司有动机去刻画更准确的用户画像,是因为他们能借此更好地赚钱,而我们绝大多数普通人去搞这种”大量且多样性的数据收集“却是收益甚微的,因此仅从动机上说,绝大多数人其实并不会因为刻板印象而受到什么大的损失,也就没有任何需要纠正刻板印象的理由。也许,和互联网上的大多数人一样,每天不亦乐乎地玩”河南人偷井盖“的烂梗才是真正正确的选择吧。