原创数据标注员揭秘：AI为何写不出好小说_生活快讯

原创数据标注员揭秘：AI为何写不出好小说

创始人

2026-05-06 10:22:51

摘要：

去年5月，科幻作者渊星成了一名数据标注员。工作简单来说，就是教AI写小说。

23岁的渊星毕业于一所“211”高校，准备跨专业考研时，他找了这份过渡工作。他也想趁此机会了解AI的写作机制，“会不会有一天，AI真的会取代人类小说家？”

这是一条新时代的流水线。从数据标注员，到质检员，到项目经理，再到大厂的正编团队，人们各司其职，把一篇篇爆款小说拆成各种层面的内容，作为数据喂给AI。

像解剖一头牛，他们解剖小说的每一章节，既标注各种爽点，也给人物贴上“腹黑”“窝囊废”之类的标签。之后，他们还给AI提供“标准答案”，评测、润色AI生成的小说。

在这里工作的半年间，这位年轻的写作者很大程度上缓解了AI焦虑。他看到了AI写小说的局限性，也在这个过程中重新确认自己写作的价值。

以下是渊星的讲述：

文 | 卢冠秋黄文玥

编辑 | 周航

像AI一样写作

去年5月，准备第三次考研时，为了找份过渡工作，我进了一家大厂外包公司的写字楼，成了一名数据标注员。

招聘要求有写作经历，我从高中起就写科幻小说，也拿过奖，符合它的要求。面试时，HR给了我一千字的小说章节，让我把它压缩成不到一百字的梗概，也就是“细纲”。那是我头一次知道这个概念。

后来一段时间里，我每天的工作，就是把一篇万字左右的爆款网络小说，浓缩成一条条细纲。

我们“细纲组”有十多个年轻人，大多来自中文、新传专业，干过编剧的比较多。有人所在的剧组倒闭了，就来这里工作。公司尝试过让AI来抽细纲，但AI的概括非常干瘪，字数不到人工细纲的三分之一，还会丢失大量关键信息。

细纲有个要求：不能“类正文”。比如只能写“他感到气愤，把杯子打碎了”，但不能写“他被气得脸发红，把杯子打碎了”。“脸发红”，属于有画面感的内容，是要留给AI生成的。或者说，要让AI明白，人类如果想要写一个人物生气了，会用“脸发红”来形容。这是大厂产品团队定的策略。他们会把细纲喂给自家AI，让它写出一篇完整的小说。

我的很多同事，一直习惯不了干巴巴地写细纲。他们不少人总会下意识用文学化的表达，直到两个多月的项目结束，都存在“类正文”的问题。

图文无关。图源视觉中国

我本科学采矿专业，不像他们长期写固定文体，反而适应得很快。做了几天，就从标注员提拔成了质检员——流水线的下一道工序。两者工资一样，但质检员负责修改标注员数据，也有权力退回去让标注员重写。

比起“类正文”，我更头疼的是各种语病。一千字的章节，细纲不能超过350字，又不能漏情节，标注员会大量省略，比如把几个人的动作压缩到一个极长的句子里，还全部用“他”来指代。把人名都改成“他”，可以省下几十个字。省到最后，句子压根不通顺，还得给它加回去。

项目经理说，严格限制字数既是因为模型单次能够处理的token（大模型处理信息的最小信息单元）有限，也是为了减少字数波动对大模型识别的影响。如果一个章节的细纲是三百字，另一个写了五百字，模型可能会以为后者需要详写，但也许字数多的原因只是情节细碎。

小说标注项目一共有两个组。除了“细纲”组，还有另一个组，活更杂一些，要写“灵感”、“小标题”，给人物贴上各种标签。大家都是“拆文”，只是拆的东西不一样。

“灵感”是整篇小说的梗概，“小标题”是段落的大意和作用。公司文档提供了段落的九个基本功能：开端、发展、高潮、反转、结尾，等等。我们从里面挑着用，再补充上“提供爽点”之类的其他作用。我们还要给人物写小传，用几个形容词，比如敏感、嚣张跋扈，以及绿茶一类的“人设”，去概括人物。这是让模型学习，什么样的性格会做出什么样的行为。

做这份工作前，我没完整看过一篇网文。但看多了就能发现，即便网络小说里的人物比较刻板化，也远不是规则文档里那二三十个人设标签能概括的。

比如我们经常用到“绿茶”这个标签，但网文中“绿茶”的变体其实很多。有的人物真的喜欢男主角，没有恶意，只是说话软一点，在我看来这算不上“绿茶”，可还是会被同事贴上这个标签。

我们经常感到，规则文档里的标签不够用。比如一个人前期很窝囊，后期觉醒了，那“窝囊废”就很难概括这个人物的弧光。这时候，我会向AI描述这个人物，让它提供几个标签，再从里面选。就这样我们自己编出了“逆袭者”“反抗者”之类的新标签。但也有标注员不认可，觉得网文世界里没有这种人设。

算法人员给我们介绍过大模型的基本原理，说是通过预测下一个词的方式来生成文本。但我还是不明白，AI能不能理解什么是“爽点”，什么是“绿茶”，或者说，它是怎么通过数学化的方式去理解的。

（注：早在2020年，北京大学中文系一个研究项目，曾用人工标注赘婿文的方法，让AI学习识别“赘婿文”中的“打脸”结尾，初步证明了将抽象情节转化为具体数据标签的可行性。）

我也怀疑这种训练方式能否写出好小说。人类创作者也会学习创作技巧，比如很有名的《救猫咪》。但数据标注是反过来的。小说已经写好了，我们把它套进模板里。作者可能并不是按这个模板写的，比如并没有以刻板印象中的“绿茶”为目标塑造人物，但我们却要在标注的时候给它做模板化的处理。

后来做评测的时候，我们都有明显感受，AI生成的小说比较刻板化，很难有真人写作的厚度。

流水线上的争议

网上对数据标注有个评价：“赛博流水工”。

我们公司属于驻场外包，服务的互联网大厂在一线城市有整片园区。我们在其中一栋楼里，整个标注团队有几百人，都给这家大厂的AI产品标数据。文本标注大类下，还有通用写作、剧本对话等其他小组。

我在那里的半年，大厂正编的产品团队来开过几次全员培训会。开会时候他们都会强调，标注数据质量如何重要，对模型的学习效果有很大影响。但不会讲具体的项目，也没有告诉我们某类数据到底怎样作用到模型。

大厂的正编人员会制定标注规则。但至少对小说项目来说，他们给的标注规则大多很笼统。怎样是一条高质量的数据？很多时候其实没有统一标准。

比如写细纲的时候，组里经常会有各种争议。在一篇“大女主”文里，原本逆来顺受的妻子，为什么突然觉醒，开始反抗丈夫和家庭？有的标注员认为转变的契机是朋友的一句话，有的人觉得是因为她真心付出却遭到丈夫冷漠对待。原作者写得并不清晰，大家各执一词。

标注员经常觉得质检员的标准有问题。为了工作留痕，大家就算紧挨着坐，也在群里讨论。有时争执不下，就由项目经理来定夺。

互联网公司园区夜景。图文无关。图源：中国视觉

我入职的时候，项目刚启动，很多东西还在摸索，项目经理也是从其他部门临时抽调过来。但她其实不太懂小说。一个标注员直接对她说，“我可以按照你说的改，但是我不会认同这个东西，我只是配合你的工作”。其实大家都是这么想的。

项目经理也总觉得，一篇小说表达什么，应该有一个标准答案。有一次例会，她举了鲁迅那句“我家门前有两棵树，一棵是枣树，另一棵也是枣树”作为例子。

“很可能鲁迅当时只是随手一写。”她说，接着问我们：“写段落作用的时候，究竟是应该从读者的角度考虑，还是从作者的角度考虑？”

这个问题在我听来有点业余。我觉得文本一旦诞生，就和作者没有关系了。哪怕作者没有这么想，如果很多读者都认为这是刻意设计的，我们也应该告诉AI，作者就是故意设计的，这样写会更好。这样才能从小说里提取出一套写作方法。

可世界上那么多读者，“很多读者”到底指的是哪一批读者？我们的工作某种程度上是充当标准读者，但说到底，也只是站在自己的角度去解读。

有的时候，我们也只是尊重“爆款”本身。比如一篇主打“大女主逆袭”的网文里，女主角一边说着要摆脱家庭、和丈夫离婚，一边又用着前夫的资金、人脉做成自己的事业。我能看出来作者想把她塑造成正面人物，但水平不太行，导致逆袭叙事不太成立。但我们还是会遵照作者原意，给女主角打上“大女主”“逆袭者”的标签。毕竟是“爆款”，说明还是有不少人吃这一套。

后来工作三个月时，换了个编剧出身的项目经理，明显能感觉她对小说的理解更深。但不是说她能定下服众的标准，而是她理解大家对小说的理解有差异，会尽量采取折中的方式。

刚开始的时候，大家觉得教AI写小说是一件有趣的事。但真的做起来，会发现数据标注重在执行规则而非创造，很快就会觉得枯燥。

我在的半年时间，两个人没过试用期，另外主动走了四个，有一个人入职一周就辞职了，他觉得工作太机械化，和预期不一样。离职的都是标注员，没有质检员。标注员处在流水线的最末端，会觉得自己一直在被否定。从他们的视角看，这份工作就是不断做，不断被其他人挑刺，没有人来告诉我，我写得特别好。时间长了很压抑。

留下的人其实也都抱着临时过渡的心态。这个行业上升空间小，整体流动性大。我去复印考研资料的时候，还看到其他人印的考教资、考导游证的资料。

各有各的模板

细纲项目做了2个多月就停了。没有人通知我们为什么停，可能是因为训练效果不好。那之后，我们做了一段时间的评测。

算法团队基于同一个提示词，让自家模型和国内外的竞品模型生成小说。我们要给每篇小说打分，再填存在的问题。问题有详细的清单，分为人物类、文风类、逻辑类、结构类、剧情类、指令遵从等。

公司也给出了“好小说”的明确标准。比如紧张情节与舒缓的情节，是否满足1比1.5的比例。不知道这个怎么算出来的，也可能是1.5比1，我也不记得了。又比如主角要立体，有清晰的成长与转变；配角要扁平，不能抢掉主角的风头。

文风类里，有一项问题是AI感太重。虽然AI感本身也是模糊的概念，但刚开始我可以很明显区分出AI感，后来看得多了，我发现自己分辨不出来了。做细纲项目时，有时候项目经理也问，你写的这个是不是AI感太重了，但他也不确定。我觉得这个事挺恐怖的，也许再待上半年一年，我就写不出小说了。

评测过程可以发现，每个模型写的小说都是高度模板化的。彼此的模板还不一样。有些模型它可能前期剧情节奏特别快，然后中期剧情就停滞了，开展一些莫名其妙的支线后，又突然结尾。也有的模型可能剧情节奏还好，但人设就比较扁平，特别刻板。

评测满分3分，我们自己做的那款AI，在评测中总是垫底。一般只有1-2分。这应该也是用户的感受。我们能看到后台用户的输入，80%都是让AI写同人文，用来磕CP的。但它写出来的角色行为经常和性格严重不符，基本上只能保证性别是对的。

我们分批次做了好几轮评测，模型有一些进步，但不是很明显。一个前面极其窝囊的人，还是常常因为一件小事莫名其妙地觉醒。表现好的模型也会出现这些问题，只是没有那么严重。

去年11月，我提了离职，专心准备考研。那时候细纲项目已经停了4个多月，除了做小说评测，我们一直在支援其他组的项目，意图识别、应用文写作，乱七八糟的。

离开后，我一直在想，为什么AI写小说的能力，远远落后于它做很多事情的能力？

我的思考是，AI模板化写作能力比较强，比如工作总结、周报月报、会议纪要等等。但写小说没有那么明确的“操作方法”。读小说的人，也不是只想了解发生了什么事，而是想透过语言去感知作者的生命体验。这种共情是很直观的，不是逻辑推理的结果。AI在迭代，它的文风也在不停地迭代，有些问题已经不太会出现了。但我觉得它永远做不到用数学化的方式，按步骤触发人的情感。

我自己写小说，很多时候来自于生活中的刺痛。我第一次写小说，是高三的晚自习，那时候我很抵触学校的衡水模式。小说叫《地震降临之时》，大概有六七千字。主角的血液可以感知磁场的变化，因此被某个机构抓去做研究。我高中时写的基本都是这种风格，故事里的体制是黑暗的、迫害人的，主角最后往往会因为想要反抗，走向悲壮的死亡。

渊星高中时写的科幻小说。讲述者供图

在“小标题”项目里，我们需要明确告诉模型，每一个段落表达的情感是什么。很多时候这种概括是正确的，比如悲伤，但即便是明确的情绪，也是立体的、丰满的，一旦用悲伤总结，它就扁平了。在人类身上，“悲伤”是理解的结果，在AI那里，这却是理解的媒介。正因如此，模型写作时也会按照套路，输出各种各样扁平的情绪。

做小说标注的经历，也让我对自己的写作有了更多思考。这几年，我总在模仿经典作品的情节和叙事方式，但大多数时候，结果都不太好。反而那些以自己生活体验为源头写出来的东西更自然，情绪也更饱满。

可能这就是AI和人类创作最大的区别。AI只是在模仿结果，它没有办法真正的创新，之所以能读出来是AI的，我觉得因为它是空洞的，文字背后没有真实的生活做支撑。

我喜欢聂鲁达的《看不见的河流》。他在青年时描写家乡的自然风光，中年开始投身社会革命，最终在真正的失败到来前去世了。那我们要如何评价他为之奋斗的一生呢？这就很有厚度了。我觉得AI永远无法给读者带来这样的体验。

（本文系极昼工作室“大学生非虚构写作项目”作品。）

上一篇：和讯信息余荣卓：存储主线深度复盘 25年9-10月如何跟踪？

下一篇：1009. 鲸鱼能下潜几千米，钢筋铁骨的潜艇，为何做不到？

原创数据标注员揭秘：AI为何写不出好小说

相关内容

热门资讯

原创 数据标注员揭秘：AI为何写不出好小说

相关内容

热门资讯

原创数据标注员揭秘：AI为何写不出好小说