你的肛门比较松弛,但是呢,你的痔疮又弥补了这一部分。如果做痔疮手术,把痔疮切除的话,可能会显得你的肛门就比较大,可能会有一些漏液漏气的情况,现在最好的办法就是,在做痔疮的同时,给你做一个肛门紧缩术。——成都王熙主任,中国AI作曲之父


  如果你在看到上面这一段话时感到不知所云,那么恭喜你又和互联网脱节了一次。虽然随着时代的发展,网上流行的各种meme逐渐变得越来越莫名其妙,网友们整出的活也确实越来越抽象,但至少这一次我觉得还算是好活。当然,考虑到并非所有读者都经常在网上冲浪,我姑且还是在这里解释一下:上面这段话确实出自一个普通的肛肠科医生自媒体,即落款处“成都王熙主任”拍的一段科普视频。也许是因为他说话时的平淡语气和这段话不太平淡的内容产生了强烈的反差,于是看到视频的网友们纷纷将其拿来整活。再加上最近正在爆火的、能够把文字转成歌曲的Suno AI的加持,于是一些配乐一本正经但歌词极具违和感的曲子瞬间就引爆了整个互联网(参考文献:基于流行病学的热梗去中心化传播理论),连同之前火爆历史区的“沟子文学”一起,共同在互联网上形成了一个巨大的Ass网络。对于此情此景我只想感叹,可能互联网热梗的传播确实是不需要理由的吧。

  我本人第一次接触到AI作曲的时间比这次爆火的Suno AI要早一些。早在2020年,我就开始尝试使用Musenet给我的Visual Novel企划生成BGM,而它的开发者正是当时还没有做出GPT这一现象级人工智能模型的OpenAI公司。作为一个平时听歌不少,并且也多少算是懂点乐器(单簧管)和乐理(音基二级)的人,我当时就被AI作曲无需灵感、近乎无限地生产各种风格音乐的能力所震撼。然而,受制于当时的网络结构和算力,Musenet不仅无法生成带有歌词的歌曲,就连生成纯音乐的时候也经常出点小差错,比如局部的不和谐。在多次尝试生成完整的曲子无果后,我最终还是选择把生成的半成品交给了学音乐的人进行完善,而它的成品大概这样:

  时至今日,我仍然记得当时那位收钱办事的人并没有对这首曲子表达出任何多余的情绪,无论是对AI进步速度的感叹也好,还是对其“没有灵魂”的抵触也好(他甚至没有跟我多说一句话)。反倒是在整首曲子完成后,找来鉴赏曲子的人把上面那些感叹说了个遍,只能说十分魔幻。

  文归正题。可能是因为已经有过这种经历作为前提,这次的“肛门松弛”音乐并没有给我带来更多的震撼。作为一名深度学习研究者,我已经无数次见证过人工智能从入门一个行业,到迅速超过普通人平均水平,再到突破行业现有极限的过程:无论是之前谈到过的围棋、绘画,还是医学图像诊断,甚至是可控核聚变中的等离子体控制,这种进步对于经常接触人工智能的人来说已经变成了一种司空见惯的生活常态。不过出于好奇,我最终还是用“肛门松弛”的通用范例炼了一炉丹出来:

  Suno链接:点我跳转

  由于在这次炼丹之前,我已经在互联网上听过一些其他的肛门音乐,其中还并不乏网友从几百上千次炼丹结果中精心挑选出的佳作(例如摇滚版古典版),所以这次炼丹的结果其实并没有完全达到我的期望。即便如此,我还是不得不承认Suno AI的水平已经超过了绝大多数普通人,甚至是相当一部分音乐从业人员的水平。更何况,这还没有考虑AI作曲相对于人类的最大优势——只要有足够的电力和算力供应,它就能一直工作下去,而且生成效率也相当惊人。换言之,AI作曲给广大普通人带来的最大潜在好处,可能正在于它大幅降低了定制音乐的成本——想想看,在AI作曲出现之前,要创作一首属于自己的音乐需要多大的成本?就算是结婚生子这种人生大事,又有多少人能够有条件、有精力去专门定制一首音乐用以纪念呢?而现在,我们只需要简单地输入几行文字——甚至都不需要自己有一块显卡——就能用音乐记录下只属于自己的闪耀瞬间:比如一次旅行、一次游戏通关、甚至只是一次对朋友的整蛊——而这在过去几乎是不可想象的:你会真的委托一位在音乐领域苦心钻研的编曲大师去给你创作“肛门松弛”音乐吗?

  写到这里,其实关于AI作曲本身我已经没有什么想说的了,毕竟在杂谈里硬要讲点Bark架构之类的专业知识也确实有够无聊(更何况我自己还没看懂)。所以接下来,我想稍微探讨一下AI作曲和本系列的上一篇文章,同时也是博客建立以来第一篇杂谈的AI绘画之间的一些联系和区别。和上次Stable Diffusion爆火时引发的画圈大地震和大规模抗议相比,AI作曲在音乐圈中却几乎没有引起什么激烈的反应,反而有很多人都选择加入玩梗大军,甚至主动出手对生成的音乐进行改编。既然同属艺术领域,为什么音乐圈对于AI的抵触心理远没有美术圈那么强烈呢?对于个中缘由,首先最不可能的一点就是这些音乐从业者对深度学习有所了解——“生成式模型的本质是学习原始样本的概率分布,然后在分布上进行采样。”这种事对于任何一个学习深度学习的人来说早已经是常识,但这也并不妨碍大量画师将AI绘图模型斥为“缝合尸块”,即便作为AI绘图核心结构的扩散模型无论是从原理还是结果都和“缝合尸块”毫不相干。和这些画师相比,音乐圈中的人对AI的了解又能深入多少?我个人认为可能性不大。

  那么还有可能是什么原因呢?马克思和恩格斯曾经在《德意志意识形态》第一卷第一章中写道:“一切历史冲突都根源于生产力和交往形式之间的矛盾。”这一观点或许能够解释部分现象。很显然,AI绘图极大地提高了艺术生产的生产力,进而颠覆了画师与市场之间的旧有生产关系。更直白地说,就是AI绘画可以更便宜、更快速、更大规模地生产美术作品,从而威胁到了传统画师的收入和地位。因此,可以说现在画师的愤怒与抗议,本质上和第一次工业革命时期的下岗工人没什么两样。而与之对应的是,虽然AI作曲也提高了音乐创作的生产力,但正如上文所说,面向普通人群的“低端”音乐定制本来就没什么市场,因此音乐圈和AI作曲之间自然也就没有那种断人财路的血海深仇。而一旦这些音乐人能够冷静下来思考,他们就会发现AI作曲反而能够给他们提供源源不断的灵感,甚至借助改进这些AI产出的作品得到新的工作机会,比如上文中我在2020年的需求那样(而这部分市场在AI作曲出现之前几乎是不存在的)。

  除此以外,绘画和音乐在艺术表现形式上的固有差异可能也是原因之一。在进行本文的写作之前,我有幸再次采访到了AI绘画那篇文章里的美工,他说:在绘画作品完成的那一瞬间,作者就已经死了。但音乐作品则不一样,因为它们仍然需要一次次地被不同的作曲家所演绎、甚至临场改编,因此其生命力仍然是无穷的。作为一个俗人,说实话我不太能理解这些唯心主义的话,所以我将其狭隘地翻译为如下观点:无论是AI绘图还是AI作曲,在生成的过程中都会不可避免地出现局部的差错,比如人像中的六指,或者声音中的噪声或者“卡痰”(后者尤其常见于VITS等人声模型);以及整体的不和谐,也就是我们常说的“AI味儿”。由于AI绘图不能生成图层,所以即使是很小的错误改起来也相当麻烦,毕竟画者不可能照着生成的图像重画一遍;而对于编曲者来说,无论是对没有的谱子的成品乐曲进行扒谱,还是从中只选出一小段旋律进行重新创作,都只能说是正常操作甚至基本功。在这种前提下,AI作曲对他们来说甚至只相当于刘慈欣在《诗云》中所想象的那个巨大诗词排列组合机一样;而与无人问津的“诗云”不同的是,无数的作曲家正不断地从他们的“曲云”中汲取灵感,进行新的创作。在此过程中,究竟是音乐丢失了“灵魂”,还是在创作中得到了更多“灵魂”,其实也很难说。

  时代总是在发展,社会也总是在进步。一次次的工业革命虽然让无数工人下岗,但也确实提高了社会的总生产力,带来了新的就业机会。如今作为先进生产力的一方,我当然希望基于深度学习的新一次工业革命来得更快、更多、更彻底一些;但如果有朝一日,当我也变成了落后生产力的代表,成了被革命一方的时候,又该用何种心态去面对这种时代浪潮呢?毕竟,“不断提升自己,追赶时代的脚步”,这句话说着容易,做起来是真难啊。


后记

  在进行本文的写作之前,我其实也有幸再次采访到了上文中那位Musenet音乐的鉴赏者。尽管他当年也曾坚定地持有“灵魂论”的观点,认为AI生成的音乐“没有灵魂/感情”,只是“数字组合所呈现的感觉”;但在这次亲眼见识到Suno AI强大的编曲能力后,他又立刻改变了看法,认为这次的方向“走对了”,并且赞不绝口地称其能够“更加细致地组合各种特征和表达情感”。看来,AI生成的音乐是否具有灵魂,可能也和神经网络的规模和算力息息相关吧(笑)。