By 厌氧菌 in 故事工程学 — Nov 21, 2023

谈谈大语言模型与非线性交互叙事

近些年来，我写了不少于交互叙事相关的文章，尤其是Espen Aarseth的Cybertext的读书笔记；同时作为一个AI从业者，我也写了不少关于故事生成的文章，尤其是最近的有关基于大语言模型的故事生成的文章。大语言模型的诞生为交互式文本叙事作品的创作带来了全新的可能性，这些可能性是发表于1996年的Cybertext这本书没有赶上时代来探讨的，但这两者却是非常相关的主题。我自己也常常思考两者的关系。下面的文字稿来自于我参加服务器艺术一期节目所做的一个分享，包含了我对这个问题的一个非常初步的思考。

近些年来，我写了不少于交互叙事相关的文章，尤其是Espen Aarseth的Cybertext的读书笔记；同时作为一个AI从业者，我也写了不少关于故事生成的文章，尤其是最近的有关基于大语言模型的故事生成的文章。

大语言模型的诞生为交互式文本叙事作品的创作带来了全新的可能性，这些可能性是发表于1996年的Cybertext这本书没有赶上时代来探讨的，但这两者却是非常相关的主题。我自己也常常思考，如何从Cybertext的视角去看待基于大语言模型的交互式文本创作，而大语言模型又给传统的Cybertext作品带来了怎样的冲击。

下面的文字稿来自于我参加服务器艺术一期节目所做的一个分享，包含了我对这个问题的一个非常初步的思考。也欢迎大家在这里观看这期节目的录播。

非线性叙事

这个分享主要会围绕“叙事的艺术”展开。

我想先提到一个概念：非线性叙事（Nonlinear Narrative）。

大家都知道最近大火的这部电影《奥本海默》。如果你看过的话，应该会对其中对非线性叙事的运用印象非常深刻。因为《奥本海默》上映不久，为了避免剧透，这里就不深入讨论。

这部电影最近的大火引起了关于这个导演——克里斯托弗诺兰的相当多的话题。大家发现，诺兰导演的比较有名的代表作，比如《盗梦空间》、《星际穿越》，都把非线性叙事运用得风声水起。

他在2000年时有一部电影叫做《记忆碎片》。这部电影讲的是一个凶杀案谜团，其中主角患上了一种很奇怪的短期失忆症，每隔10分钟记忆就会重置一次，也就是说他最多只记得最近10分钟的事情。电影也把完整的故事分成了大量的小的情节片段，这些片段组成了正叙和倒叙的两个时间序列。然后诺兰导演再把组成这两个序列的情节片段顺序打乱、互相穿插起来。

故事中这个影片的主角非常艰难地将自己非常有限的记忆、配合自己以前写给自己的零星的笔记，拼命想要拼凑出一个完整的现实，去还原凶杀案背后的真相。同时观众也很努力地想把影片中这些很混乱的情节按照时间顺序重组成自己能够理解的完整故事。

这个重组的过程非常的烧脑。而不同的人也可能重组出不同的故事，就造成对诺兰电影的多解性。

《记忆碎片》可以说非常巧妙地通过非线性叙事将主角的主观感受传达给了观众，达到了形式和内容的统一。

诺兰导演在电影界，可以说是把非线性叙事玩到了极致了。

但是，他仍然跳脱不出电影这种媒介本身还是线性的这个媒介本身带来的限制。各位读者哪怕有一点视频编辑的经验，就应该见过这个时间轴：

这个时间轴表示的是观众观看到影片中内容的顺序。

不管诺兰导演的故事如何跳脱出线性时间的框架、他的故事可以形成非常复杂的很立体的结构、可以有多线情节、情节之间可以有嵌套关系、可以有时空错位。但是为了最后能以一部影片的形式呈现给观众，他还是需要将影片素材分布在这样一条线性的时间轴上。而这个过程，必然带来信息损失。

当然这不一定是坏事，信息损失可以带来多解性。而且毕竟每种艺术媒介本质上都是给创作者带来限制，正是这种限制带给创作者表达的机会。比如，为什么要选择这种线性化的方式、而不是那种线性化的方式？这里就可以有很多创作者的巧思在里面。

但是我们也不妨去思考，如果我们跳脱出媒体本身的线性，是不是能够为非线性叙事带来全新的可能性？

非线性媒介

这就来到了我们的第二个话题：非线性的艺术媒介。

在刚刚的电影《记忆碎片》这个例子的分析当中，尽管诺兰导演把两条叙事序列拆成了很多情节碎片，把它们顺序打乱了，以此来营造一种很困惑的感觉，但他最后还是要把这些碎片按某种线性的顺序排在他的影片时间轴上。

因此诺兰导演不仅仅设计了“通过打乱情节顺序来使观众困惑”这件事，他还得去设计“具体怎么打乱、怎么使观众困惑"这件事。他甚至还要设计看到什么地方观众应该开始感到困惑、看到什么地方观众应该要产生什么误解、看到什么地方观众对情节的理解应该被反转、看到什么地方观众应该恍然大悟了。

他本质上不仅设计了这个非线性的叙事结构本身，他还设计了一套完整的观众视角，也就是观众在看这个故事的过程中应该有一个什么样的心路历程。

那有没有可能，创作者只去设计这个非线性的叙事结构本身，而不去设计观众视角呢？这样的话，就能让每个观众自己去发现他的独一无二的观众视角。

假设《记忆碎片》是这样的一部作品，那我觉得它应该会很像2015年发行的一部电子游戏：Her Story。

Her story这部游戏也是讲了一个凶杀案的故事，游戏最一开始是一个英国女人的丈夫被发现死在家里。整部游戏就是一个模拟警察局电脑的系统，这台电脑上有大概271个这个英国女人的审讯视频、也就是死者的妻子的审讯视频。玩家可以通过屏幕上看到的这个关键词搜索的系统来探索这271个审讯视频。在这个过程中慢慢对这个案子的真相建立自己的理解。

作者就把这么一堆视频片段，还有这一套看视频找视频的系统丢在玩家面前，然后就全部就给玩家自己去探索这个案子了，没有任何思路引导或者关于这个探索过程的中间情节。

实际玩这个游戏的体验可以说跟看《记忆碎片》这部电影的体验是有些相似的，观众都是面对一堆碎片化的情节片段。这些情节片段没有按照时间顺序安排好，所以观众会在观看过程中感到困惑。观众不能像传统的线性叙事的电影或者小说那样以一种比较消极的姿态被动地接收输入。他们需要非常积极主动地去思考，去建构自己关于这个故事到底在讲什么的理解。

而与《记忆碎片》不同的地方在于，《Her Story》没有选择像电影这样的线性媒介，而是选择了电子游戏这个具有交互性的媒体。这就让作者在设计完这整套非线性叙事的结构——也就是这271个审讯视频之后，不用再去设计某种特定的观众接触到这些内容的视角。他不需要像在《记忆碎片》中那样，还得设计一种打乱情节片段的特定顺序。因为每个观众观看这271个视频都会是不同的顺序，他们就会形成自己独一无二的视角和体验。

(关于《Her Story》这个游戏的讨论也可以参看我过去的一篇评论文章: 从《Her Story》到《Return of the Obra Dinn》：让侦探游戏真正成为游戏)

我们前面说过，去设计情节出现的顺序也可以是作者借以表达的手法。Her Story这里不能再使用这种表达手法。但是观众获得了更强的沉浸感。而且这种破解一个故事谜团的体验，比起去看一部别人编排好的破案电影来，就更接近一手的破案体验。

而且这里创作者其实也获得了全新的表达手法，就是观众在这套非线性叙事结构中探索的机制。Her Story设计了一个关键字搜索的机制，而且它限制了搜索结果最多只能显示5个视频片段。如果你用一个太常见的关键词，一些核心情节就更有可能被不那么关键的情节淹没掉。这其实还是一定程度上在控制观众以一种逐渐深入核心、抽丝剥茧的方式探索故事。

Cybertext的概念

这里我们要引出一个概念：叫做Cybertext（制动文本；游驭文本）。

电子游戏本质上是计算机程序。而计算机程序本质上是一种信息系统。一堆信息之所以能够自成一套系统，就在于除了信息和信息背后的作者之外，还有信息的读者也在信息的最终表达中起到作用。

而所谓的非线性叙事，本质上也是允许叙事有更加立体的结构。而一个结构一旦立体，就意味着可以用多种视角去考察它。因此信息系统作为一种表达媒介，从一开始就与非线性叙事结构是高度一致的。

说到信息系统、或者说计算机程序，大家一般都会想到电脑软件或者电子游戏，但实际上它也是可以被看作是一种叙事媒介的。

挪威学者 Espen J· Aarseth 在1997年发表的一部有一定知名度的著作叫做《Cybertext》，就提出了这样一种看待信息系统的视角。这本书的全名叫做《Cybertext: Perspective on Ergodic Literature（制动文本:遍历文学观）》。

他首先提出了Cybertext这个概念，意指一种自成信息系统的文本叙事结构。在传统的线性叙事——比如小说、电影中，作者会设计好一个静态的叙事内容，这个叙事内容每次呈现在观众面前都应该是同一个样子。

但是Cybertext不同之处在于，作者设计的是一个动态的叙事内容，它每次呈现在观众面前都可能是不同的样子。Aarseth用这幅图提出了一个“文本机器”的概念。观众从一个文本机器中得到的体验，应该是内容的媒介、媒介的操作者和内容本身三者共同决定的。因此这里的“内容”，也就是作者去设计的那个东西，它不应该是某种具体的体验，而应该是能够动态地产生具体的体验的一种机制。

而当这种机制不是为了实现某种功能性而设计、而是为了实现某种美学属性而设计的时候，按照Aarseth的术语，就称作是Ergodic Literature。

Ergodic 这个词一般被翻译成“遍历的”，更多出现在概率统计和物理学的语境之中，一个常用的含义是形容一个概率分布具有的一个属性——从任意样本出发，能够通过某种形式的遍历来穷尽整个概率分布。所以Ergodic Literature中文也可以叫做是”遍历文学”。而在我们现在是在一个媒体的语境下，这个词表示内容的消费者不能直接到达这个内容要传达的信息，而要通过媒介和在媒介之上的操作在这个系统所有可能产生的信息中四处游荡，以这种方式接近整个系统最终要传达的那个“真正”的信息。

从诺兰的《记忆碎片》到《Her Story》，就是一个比较典型的从传统的静态叙事到遍历文学的转变。除此之外，在Aarseth这本书中也研究了一切其他类型的Cybertext，比如超文本小说、文字冒险游戏、故事生成程序、还有多人在线地牢（MUD）。

Aarseth在这本书中也讨论了传统的基于线性媒体的叙事和遍历文学之间究竟有什么区别。其实诸如《记忆碎片》这样的电影，虽然是一种线性的呈现方式，但它的非线性叙事手法还是给观众一种很困惑的感觉，并且需要观众去主动地在脑中形成对完整故事的一种解读。这个效果其实跟Her Story通过这个审讯视频搜索的机制达成的效果是非常类似的。

针对这个问题，Aarseth举了一个迷宫的例子。他说，有这样两种迷宫：

单行道迷宫：从起点到终点只有一条路，但这条路弯弯曲曲极度曲折，让人容易迷失方向，在路途中搞不清自己在哪里；
多分支迷宫：从起点到终点有许多条道路，每条道路中间又常常分叉产生新的道路，由于道路数量和分支的庞大而让人容易迷失方向。

这两种迷宫用不同的方式，但最后都会让人有一个迷惑的过程。那么类似地，当我们说“非线性叙事”的时候，我们也可能表达下面两种情况：

只有一个可能的叙事内容，这个叙事内容对读者完全是开放的，但这个叙事内容通过暧昧的语言、刻意的隐瞒、颠倒时间顺序等等表达上的迷惑性而让观众产生具有不确定性的解读；
有多种可能的的叙事内容，读者通过操纵媒介到达其中一个具体的叙事内容，观众因为只能看到信息全局之中的一个局部，并且不同的观众看到的是不同的局部，从而对信息全局的解读变得有不确定性。

传统的线性媒体，通过支持上述第一种表达手法来支持非线性叙事。而Cybertext（制动文本）作为一种新的叙事媒介，它能够支持用上述的第二种方式来实现非线性叙事了。这就是它为非线性叙事带来的全新的可能性。

基于语言模型的“非线性”叙事

Aarseth的《Cybertext》这本书，发表于1997年。那个时候即使是计算机都还算是比较新奇的技术。受限制于时代，他在书中只能考察一些非常古老的遍历文学的例子。而在25年后的今天，又有一个划时代的新技术很有冲击地出现在世人面前，就是以GPT为代表的大语言模型（Large Language Models）。大语言模型可以说带来了一种叙事创作的全新的模式。我们今天不妨从遍历文学的角度来看看这些新的叙事创作方法，看看它们又为非线性叙事带来了什么新的可能性。

语言模型大家应该都听说过，具体可以参看我之前的文章基于大数据的语言模型与程序化叙事生成。这里就非常概括地总结一下。

像GPT这样的大语言模型，本质上是大数据驱动的复杂的统计模型（深度神经网络），使用大量文本（~1 trillion的字数）来训练。训练出来的模型会给我们一个概率分布：给它任意一个文本序列，它能够告诉我后续可能出现的文本概率分别是多少。对这个概率分布进行采样，就得到输出文本。再把输出文本重新作为输入文本再得到后续文本，这样就能源源不断生成文本。

这样的模型能够输出很像是英语的句子，你可以说它学会了说话，但它还不会有目的地去说有价值的话。诸如ChatGPT这样的对话型语言模型，会进一步使用人类反馈强化学习（Reinforcement Learning Human Feedback），让人类用户来给更有价值的回答打高分，没有价值的打低分。用这些打分数据再训练一个偏好模型（preference model），使用这个偏好模型对语言模型进行参数微调（Fine-tuning），让更有价值的回答出现的概率更高。

这样训练出来的模型，如果你给它一个提示，它就能够给你生成一个故事。比如下图：

像GPT这样的规模极其庞大的模型，它是能够去应对一个比这个例子复杂得多的提示的。而且它能够记住这个提示，带着这个提示的记忆去继续对话。

从叙事的创作者的角度，这意味着我们不仅能让它产生一段静态的叙事文本，还能指示它去执行一套复杂的机制，这套机制能够跟作品的观众互动。观众能够通过这个机制在作品中探索。这种意义上的语言模型其实本质上就是一种通用计算机（只不过它是通过直觉、而不是逻辑运算来进行信息处理）。

这就是用语言模型来创作互动叙事作品的基本思路。

这里我们来考察一个网友使用ChatGPT创作的互动破案游戏（来自https://www.spacekangaroo.ai/post/murder-mystery-game-in-chatgpt-contest-entry）。下面是网友给chatGPT的提示：

在https://www.spacekangaroo.ai/post/murder-mystery-game-in-chatgpt-contest-entry 可以看到完整英文提示。将英文提示复制到chatGPT 3.5以上，就能以玩家角色玩这个破案游戏。（注：翻译成中文后的提示效果不如原英文提示。）

以下是玩家在游戏过程中与chatGPT的对话记录：

ChatGPT向玩家介绍了案情，生成了五个犯罪嫌疑人的对话，并提示玩家是要对凶手作出推测，还是继续向嫌疑人提问。如果玩家继续提问，就可以完全自由地输入任何问题，ChatGPT会根据角色人设以及与案情的关系自动生成回答。

可以看到，这里玩家输入的问题都没有一个是创作者一开始想到的，而且针对这些问题，角色给出的回答的台词也都不是作者事先设计好的，有些破案过程，可能连创作者自己看到了都会觉得惊讶。这段复杂的提示实际上是用自然语言编写了一套带来叙事体验的机制。作者只设计了这个案子本身，他完全没有去设计玩家是怎么破案的。

我们现在来比较一下这个这样用ChatGPT创作出来的破案解谜的交互叙事作品，和前面提到的电影《记忆碎片》和游戏《Her Story》。当然这个ChatGPT叙事，跟前两者比起来，远远没有花那么多心思去构思设计，但我们如果去做一个形式上的比较，还是能发现有意思的东西。

而最后，在我们这个用ChatGPT创作的这个很简单的破案游戏中，我们当然没有去设计观众获得线索的顺序，我们甚至根本就没有去设计这些碎片化的线索。我们在这里只是把虚构出来的这个凶杀案本身告诉ChatGPT，把嫌疑犯的角色设定告诉了ChatGPT。然后整个破案的过程就全部都交给ChatGPT和用户之间的互动了。我们甚至都很难把它称作是一种非线性叙事。因为一个叙事是否线性，它首先预设了有一系列的情节片段在那里，然后再看你是不是把这些情节片段按照时间顺序来呈现。而在这个例子中，当创作在设计这个叙事体验的时候，他自始自终就没有去设计这些情节片段。这些情节片段是当他的作品与观众产生互动的时候实时地产生出来的。如果我们坚持也要套上Aarseth的迷宫比喻，这类作品所对应的迷宫，你可以想象成是一种会变形的迷宫，它不仅有很多岔路、很多分支，甚至当观众在其中探索的时候，这些岔路还会变化、还会不断有新的岔路临时出现。

所以我们发现，从《记忆碎片》，到《Her Story》，再到这个基于ChatGPT的破案游戏。从创作者的角度来看，是一个不断做减法的过程：从设计一个完整的、具体的解开谜团体验、到只去设计线索片段、最后再到只去设计这个谜团本身。

这其实是一个作者的主导权在不断地后撤的过程，而观众的主导权则在不管增强。作者对观众的具体体验的影响，不能说越来越小，但是可以说越来越间接了。

关于作者性

现在问题来了：当创作者的主导权都后撤到这种地步的时候，这个作品多大程度上还能说是这个作者的作品？

尤其当我们是在用ChatGPT进行创作的时候。我们真正自己产出的东西其实也就只有这段提示。好像绝大多数的机制都发生在ChatGPT这个语言模型那里。而这个语言模型也不是我们开发出来的。

另外，刚刚的例子里面我们是直接写了一大段的提示交给了ChatGPT。而现在市面上其实已经有不少工具能够让创作者用更加容易上手、更加结构化的方式去创作他们的交互叙事作品。比如AI Dungeon是非常有名的一个平台。创作者可以用他们提供的这个非常友好的用户界面去定义一个故事的场景，或者一个虚构的世界、让玩家进入到你创作的这个故事或者这个虚构的世界观中去探索。

另一个例子：Inworld AI是一个创建虚构人物的平台。创作者在这里不仅可以去设计一个虚构人物的外观，还可以去设定这个人物的背景、过去的经历、性格、说话方式、理想和动机等等。作为创作者不需要去设计这个人物在任何具体的场景重的台词，但是通过语言模型，玩家就可以跟这个你设计的人物用自然语言进行对话。

Inworld还提供了一个巧妙的机制，允许把创作者设计好的一段对话和GPT产生的那些对话融合在一起。很多时候创作者不希望一个角色只是跟玩家进行完全自由的闲聊，他希望这个角色承担一些情节上的推动作用。这个时候他就可以去设计几个话题，让这个角色在跟玩家自由聊天的时候刻意地引到这些话题。

那么如果我只是使用了这种平台、或者说工具去设计了一个虚拟世界、一个故事、或者一个人物，我能算是最后这个跟观众交互的作品的作者吗？在前面的例子中至少创作者还写了一大段给chatGPT的提示。如果我用的是这类工具，我甚至连chatGPT拿到的提示具体是什么样子都不知道。我对最后观众体验的掌控已经弱到了极致。

在发表于German Studies Review的文章Writing at a Distance: Some Notes on Authorship and Artificial Intelligence(Hannes Bajohr)中，作者提出了”Causal Authorship（因果性作者）”的概念，表示AI辅助的文本创作带来传统的创作以外更加间接的创作模式，区分了以下几种不同创作模式下的作者性：

一手作者（primary authorship）：作者直接（用自己的身体亲自）创作了作品，也就是传统的创作模式。
二手作者（secondary authorship）：当作者编写了一段计算机程序，再用这个程序来生成作品，作者与作品之间就相隔了一个程序。
三手作者（tertiary authorship）：进入机器学习时代，作者使用一个训练好的机器学习算法来生成作品，作者与作品之间不仅相隔了一个程序，还相隔了训练这个机器学习模型的数据集。
四手作者（quaternary authorship）：当我们通过类似AI Dungeon或者Inworld AI这样的平台来进行创作，我们与机器学习模型之间都不是直接沟通、而是通过平台提供给我们的结构化的用户界面，我们与作品之间就还相隔了一个平台，成为四手作者。

跟这个作者性的问题相关的还有这类作品的艺术性的问题。当创作者对观众的体验的影响间接到这种程度的时候，他所创造出来的这个能够在ChatGPT上运行的这个东西，似乎更像是一种产生叙事作品的平台，而不是某种叙事作品本身。这就有些类似于我们可以用视频剪辑软件制作出影片作品，但是我们不会说这个视频剪辑软件是一种艺术作品。

这无疑是个更加开放的问题，这里简单说说我的个人观点来抛砖引玉。

我觉得像这样用ChatGPT创作出来的交互叙事作品，跟传统的那些叙事作品相比，其实有点像是摄影与绘画的关系。当摄影这种技术刚刚出现的时候，其实大众也争论过摄影能不能是一种艺术——他们也是觉得摄影师好像只是按了一个快门，可能事后处理了胶卷，觉得大多数的事情好像都发生在相机那里。而且摄影在很多情况下都是一种功能性大于艺术性的技术。

而且比起画家能够从一张白纸开始画出任何他想要的内容，摄影师需要去操纵一个更加复杂的由光影规则和物理定律控制的系统，这个系统的掌握不是那么直截了当的，跟绘画比起来，这在某种意义上其实也减弱了摄影师在创作过程中的主导权。

但是事实证明摄影也能够进行艺术表达，它也有他独特的表达语言。摄影的语言是一种更加宏观的语言，它让摄影师能够更轻松地传达一些用绘画需要很费力地描绘出的图景。

那么同样的，我们借用语言模型去进行叙事创作，是不是也能看作是在使用一种更加宏观的语言，让创作者更轻松地传达一些用传统的叙事创作需要很费力才能描绘出的内容呢？

理论上是这样说，但要真正让人们认同这类作品的艺术性，还是需要一些真正有说服力的作品出现。而现在的我们还处于语言模型投入市场的初期，在这个阶段，大家更多思考的是“如何用新技术更有效率地去做现有的事”，而不是“这个新技术能做什么前所未有的事”。

我个人非常热切地盼望着第一个真正意义上的里程碑式的作品出现。

参考文献

[1] Aarseth, E.J., 1997. Cybertext: Perspectives on ergodic literature. JHU Press.

[2] Film Momento, 2000 directed by Christopher Nolan, https://www.imdb.com/title/tt0209144/

[3] Game Her Story, 2015, developed by Sam Barlow[4] Murder mystery game in chatgpt, @SpaceKangaroo, https://www.spacekangaroo.ai/post/murder-mystery-game-in-chatgpt-contest-entry

[4] AI Dungeon, https://aidungeon.com/

[5] Inworld, https://inworld.ai/

[6] Bajohr, Hannes. Writing at a Distance: Some Notes on Authorship and Artificial Intelligence.”. RG Working Papers.