摘要:
去年5月,科幻作者渊星成了一名数据标注员。工作简单来说,就是教AI写小说。
23岁的渊星毕业于一所“211”高校,准备跨专业考研时,他找了这份过渡工作。他也想趁此机会了解AI的写作机制,“会不会有一天,AI真的会取代人类小说家?”
这是一条新时代的流水线。从数据标注员,到质检员,到项目经理,再到大厂的正编团队,人们各司其职,把一篇篇爆款小说拆成各种层面的内容,作为数据喂给AI。
像解剖一头牛,他们解剖小说的每一章节,既标注各种爽点,也给人物贴上“腹黑”“窝囊废”之类的标签。之后,他们还给AI提供“标准答案”,评测、润色AI生成的小说。
在这里工作的半年间,这位年轻的写作者很大程度上缓解了AI焦虑。他看到了AI写小说的局限性,也在这个过程中重新确认自己写作的价值。
以下是渊星的讲述:
文 | 卢冠秋 黄文玥
编辑 | 周航
像AI一样写作
去年5月,准备第三次考研时,为了找份过渡工作,我进了一家大厂外包公司的写字楼,成了一名数据标注员。
招聘要求有写作经历,我从高中起就写科幻小说,也拿过奖,符合它的要求。面试时,HR给了我一千字的小说章节,让我把它压缩成不到一百字的梗概,也就是“细纲”。那是我头一次知道这个概念。
后来一段时间里,我每天的工作,就是把一篇万字左右的爆款网络小说,浓缩成一条条细纲。
我们“细纲组”有十多个年轻人,大多来自中文、新传专业,干过编剧的比较多。有人所在的剧组倒闭了,就来这里工作。公司尝试过让AI来抽细纲,但AI的概括非常干瘪,字数不到人工细纲的三分之一,还会丢失大量关键信息。
细纲有个要求:不能“类正文”。比如只能写“他感到气愤,把杯子打碎了”,但不能写“他被气得脸发红,把杯子打碎了”。“脸发红”,属于有画面感的内容,是要留给AI生成的。或者说,要让AI明白,人类如果想要写一个人物生气了,会用“脸发红”来形容。这是大厂产品团队定的策略。他们会把细纲喂给自家AI,让它写出一篇完整的小说。
我的很多同事,一直习惯不了干巴巴地写细纲。他们不少人总会下意识用文学化的表达,直到两个多月的项目结束,都存在“类正文”的问题。
图文无关。图源 视觉中国
我本科学采矿专业,不像他们长期写固定文体,反而适应得很快。做了几天,就从标注员提拔成了质检员——流水线的下一道工序。两者工资一样,但质检员负责修改标注员数据,也有权力退回去让标注员重写。
比起“类正文”,我更头疼的是各种语病。一千字的章节,细纲不能超过350字,又不能漏情节,标注员会大量省略,比如把几个人的动作压缩到一个极长的句子里,还全部用“他”来指代。把人名都改成“他”,可以省下几十个字。省到最后,句子压根不通顺,还得给它加回去。
项目经理说,严格限制字数既是因为模型单次能够处理的token(大模型处理信息的最小信息单元)有限,也是为了减少字数波动对大模型识别的影响。如果一个章节的细纲是三百字,另一个写了五百字,模型可能会以为后者需要详写,但也许字数多的原因只是情节细碎。
小说标注项目一共有两个组。除了“细纲”组,还有另一个组,活更杂一些,要写“灵感”、“小标题”,给人物贴上各种标签。大家都是“拆文”,只是拆的东西不一样。
“灵感”是整篇小说的梗概,“小标题”是段落的大意和作用。公司文档提供了段落的九个基本功能:开端、发展、高潮、反转、结尾,等等。我们从里面挑着用,再补充上“提供爽点”之类的其他作用。我们还要给人物写小传,用几个形容词,比如敏感、嚣张跋扈,以及绿茶一类的“人设”,去概括人物。这是让模型学习,什么样的性格会做出什么样的行为。
做这份工作前,我没完整看过一篇网文。但看多了就能发现,即便网络小说里的人物比较刻板化,也远不是规则文档里那二三十个人设标签能概括的。
比如我们经常用到“绿茶”这个标签,但网文中“绿茶”的变体其实很多。有的人物真的喜欢男主角,没有恶意,只是说话软一点,在我看来这算不上“绿茶”,可还是会被同事贴上这个标签。
我们经常感到,规则文档里的标签不够用。比如一个人前期很窝囊,后期觉醒了,那“窝囊废”就很难概括这个人物的弧光。这时候,我会向AI描述这个人物,让它提供几个标签,再从里面选。就这样我们自己编出了“逆袭者”“反抗者”之类的新标签。但也有标注员不认可,觉得网文世界里没有这种人设。
算法人员给我们介绍过大模型的基本原理,说是通过预测下一个词的方式来生成文本。但我还是不明白,AI能不能理解什么是“爽点”,什么是“绿茶”,或者说,它是怎么通过数学化的方式去理解的。
(注:早在2020年,北京大学中文系一个研究项目,曾用人工标注赘婿文的方法,让AI学习识别“赘婿文”中的“打脸”结尾,初步证明了将抽象情节转化为具体数据标签的可行性。)
我也怀疑这种训练方式能否写出好小说。人类创作者也会学习创作技巧,比如很有名的《救猫咪》。但数据标注是反过来的。小说已经写好了,我们把它套进模板里。作者可能并不是按这个模板写的,比如并没有以刻板印象中的“绿茶”为目标塑造人物,但我们却要在标注的时候给它做模板化的处理。
后来做评测的时候,我们都有明显感受,AI生成的小说比较刻板化,很难有真人写作的厚度。
流水线上的争议
网上对数据标注有个评价:“赛博流水工”。
我们公司属于驻场外包,服务的互联网大厂在一线城市有整片园区。我们在其中一栋楼里,整个标注团队有几百人,都给这家大厂的AI产品标数据。文本标注大类下,还有通用写作、剧本对话等其他小组。
我在那里的半年,大厂正编的产品团队来开过几次全员培训会。开会时候他们都会强调,标注数据质量如何重要,对模型的学习效果有很大影响。但不会讲具体的项目,也没有告诉我们某类数据到底怎样作用到模型。
大厂的正编人员会制定标注规则。但至少对小说项目来说,他们给的标注规则大多很笼统。怎样是一条高质量的数据?很多时候其实没有统一标准。
比如写细纲的时候,组里经常会有各种争议。在一篇“大女主”文里,原本逆来顺受的妻子,为什么突然觉醒,开始反抗丈夫和家庭?有的标注员认为转变的契机是朋友的一句话,有的人觉得是因为她真心付出却遭到丈夫冷漠对待。原作者写得并不清晰,大家各执一词。
标注员经常觉得质检员的标准有问题。为了工作留痕,大家就算紧挨着坐,也在群里讨论。有时争执不下,就由项目经理来定夺。
互联网公司园区夜景。图文无关。图源:中国视觉
我入职的时候,项目刚启动,很多东西还在摸索,项目经理也是从其他部门临时抽调过来。但她其实不太懂小说。一个标注员直接对她说,“我可以按照你说的改,但是我不会认同这个东西,我只是配合你的工作”。其实大家都是这么想的。
项目经理也总觉得,一篇小说表达什么,应该有一个标准答案。有一次例会,她举了鲁迅那句“我家门前有两棵树,一棵是枣树,另一棵也是枣树”作为例子。
“很可能鲁迅当时只是随手一写。”她说,接着问我们:“写段落作用的时候,究竟是应该从读者的角度考虑,还是从作者的角度考虑?”
这个问题在我听来有点业余。我觉得文本一旦诞生,就和作者没有关系了。哪怕作者没有这么想,如果很多读者都认为这是刻意设计的,我们也应该告诉AI,作者就是故意设计的,这样写会更好。这样才能从小说里提取出一套写作方法。
可世界上那么多读者,“很多读者”到底指的是哪一批读者?我们的工作某种程度上是充当标准读者,但说到底,也只是站在自己的角度去解读。
有的时候,我们也只是尊重“爆款”本身。比如一篇主打“大女主逆袭”的网文里,女主角一边说着要摆脱家庭、和丈夫离婚,一边又用着前夫的资金、人脉做成自己的事业。我能看出来作者想把她塑造成正面人物,但水平不太行,导致逆袭叙事不太成立。但我们还是会遵照作者原意,给女主角打上“大女主”“逆袭者”的标签。毕竟是“爆款”,说明还是有不少人吃这一套。
后来工作三个月时,换了个编剧出身的项目经理,明显能感觉她对小说的理解更深。但不是说她能定下服众的标准,而是她理解大家对小说的理解有差异,会尽量采取折中的方式。
刚开始的时候,大家觉得教AI写小说是一件有趣的事。但真的做起来,会发现数据标注重在执行规则而非创造,很快就会觉得枯燥。
我在的半年时间,两个人没过试用期,另外主动走了四个,有一个人入职一周就辞职了,他觉得工作太机械化,和预期不一样。离职的都是标注员,没有质检员。标注员处在流水线的最末端,会觉得自己一直在被否定。从他们的视角看,这份工作就是不断做,不断被其他人挑刺,没有人来告诉我,我写得特别好。时间长了很压抑。
留下的人其实也都抱着临时过渡的心态。这个行业上升空间小,整体流动性大。我去复印考研资料的时候,还看到其他人印的考教资、考导游证的资料。
各有各的模板
细纲项目做了2个多月就停了。没有人通知我们为什么停,可能是因为训练效果不好。那之后,我们做了一段时间的评测。
算法团队基于同一个提示词,让自家模型和国内外的竞品模型生成小说。我们要给每篇小说打分,再填存在的问题。问题有详细的清单,分为人物类、文风类、逻辑类、结构类、剧情类、指令遵从等。
公司也给出了“好小说”的明确标准。比如紧张情节与舒缓的情节,是否满足1比1.5的比例。不知道这个怎么算出来的,也可能是1.5比1,我也不记得了。又比如主角要立体,有清晰的成长与转变;配角要扁平,不能抢掉主角的风头。
文风类里,有一项问题是AI感太重。虽然AI感本身也是模糊的概念,但刚开始我可以很明显区分出AI感,后来看得多了,我发现自己分辨不出来了。做细纲项目时,有时候项目经理也问,你写的这个是不是AI感太重了,但他也不确定。我觉得这个事挺恐怖的,也许再待上半年一年,我就写不出小说了。
评测过程可以发现,每个模型写的小说都是高度模板化的。彼此的模板还不一样。有些模型它可能前期剧情节奏特别快,然后中期剧情就停滞了,开展一些莫名其妙的支线后,又突然结尾。也有的模型可能剧情节奏还好,但人设就比较扁平,特别刻板。
评测满分3分,我们自己做的那款AI,在评测中总是垫底。一般只有1-2分。这应该也是用户的感受。我们能看到后台用户的输入,80%都是让AI写同人文,用来磕CP的。但它写出来的角色行为经常和性格严重不符,基本上只能保证性别是对的。
我们分批次做了好几轮评测,模型有一些进步,但不是很明显。一个前面极其窝囊的人,还是常常因为一件小事莫名其妙地觉醒。表现好的模型也会出现这些问题,只是没有那么严重。
去年11月,我提了离职,专心准备考研。那时候细纲项目已经停了4个多月,除了做小说评测,我们一直在支援其他组的项目,意图识别、应用文写作,乱七八糟的。
离开后,我一直在想,为什么AI写小说的能力,远远落后于它做很多事情的能力?
我的思考是,AI模板化写作能力比较强,比如工作总结、周报月报、会议纪要等等。但写小说没有那么明确的“操作方法”。读小说的人,也不是只想了解发生了什么事,而是想透过语言去感知作者的生命体验。这种共情是很直观的,不是逻辑推理的结果。AI在迭代,它的文风也在不停地迭代,有些问题已经不太会出现了。但我觉得它永远做不到用数学化的方式,按步骤触发人的情感。
我自己写小说,很多时候来自于生活中的刺痛。我第一次写小说,是高三的晚自习,那时候我很抵触学校的衡水模式。小说叫《地震降临之时》,大概有六七千字。主角的血液可以感知磁场的变化,因此被某个机构抓去做研究。我高中时写的基本都是这种风格,故事里的体制是黑暗的、迫害人的,主角最后往往会因为想要反抗,走向悲壮的死亡。
渊星高中时写的科幻小说。讲述者供图
在“小标题”项目里,我们需要明确告诉模型,每一个段落表达的情感是什么。很多时候这种概括是正确的,比如悲伤,但即便是明确的情绪,也是立体的、丰满的,一旦用悲伤总结,它就扁平了。在人类身上,“悲伤”是理解的结果,在AI那里,这却是理解的媒介。正因如此,模型写作时也会按照套路,输出各种各样扁平的情绪。
做小说标注的经历,也让我对自己的写作有了更多思考。这几年,我总在模仿经典作品的情节和叙事方式,但大多数时候,结果都不太好。反而那些以自己生活体验为源头写出来的东西更自然,情绪也更饱满。
可能这就是AI和人类创作最大的区别。AI只是在模仿结果,它没有办法真正的创新,之所以能读出来是AI的,我觉得因为它是空洞的,文字背后没有真实的生活做支撑。
我喜欢聂鲁达的《看不见的河流》。他在青年时描写家乡的自然风光,中年开始投身社会革命,最终在真正的失败到来前去世了。那我们要如何评价他为之奋斗的一生呢?这就很有厚度了。我觉得AI永远无法给读者带来这样的体验。
(本文系极昼工作室“大学生非虚构写作项目”作品。)