作为图像学的主要流派,瓦尔堡学派将图像置于艺术史脉络中加以考察,由此形成了图像阐释学的基本知识框架。在传统的图像学那里,图像阐释的主要对象是艺术图像,而后续的图像阐释学,竭力地“追赶”各种新兴的图像形式。然而,这显然是一项“未完成的工程”。随着Midjourney、Runway、Sora等大语言模型的兴起,一种新兴的图像“物种”——生成式AI图像悄然诞生,并深度嵌入数字时代的图像世界。区别于一般的技术图像,生成式AI图像是一种基于算法生成的图像。如何理解并阐释生成式AI图像,亟需进行图像阐释学的知识框架重构。刘涛教授的文章《失联的“踪迹”:生成式AI图像与图像阐释学的知识框架重构》正是对此前沿问题的回应。文章以图像阐释学的三个基础命题——“再现”“象征”和“互文”为问题意识,批判性地反思生成式AI图像对这三大问题的冲击与挑战,以此勾勒出智能时代图像阐释学的知识框架。作者提出“通用形象”这一原创性概念,认为应将算法“黑箱”纳入阐释学的知识视域,从而揭示了语象和图像在“计算”维度的通约可能。探索生成式AI图像的阐释理念、内涵与规则,有助于推进图像阐释学在智能媒介时代的知识体系重构。
——陈昌凤 清华大学新闻与传播学院教授、博导
失联的“踪迹”:生成式AI图像
与图像阐释学的知识框架重构
刘 涛
暨南大学新闻与传播学院教授、博导
原文载于《南京社会科学》2024年第8期
本文注释略去
非经注明,文中图片均来自网络
摘 要
生成式AI图像的兴起,对图像阐释学带来了巨大挑战。唯有批判性地反思图像阐释学知识脉络中的三大基础命题——“再现”“象征”和“互文”,才能重构人工智能时代图像阐释学的知识框架。作为一种符号模式,“再现”揭示了世界对符号的依赖,亦揭示了图像阐释的语言基础。如果说传统图像的再现之本质是及物性、摹仿性、镜像性,生成式AI图像则否定了图像存在的再现基础,也否定了图像生产的再现语言,其本质上是不及物的、反再现的、生成性的图像。Sora作为世界模拟器的意义,并不仅仅体现为对世界的视觉理解,更为深刻的装置内涵在于形成了一套关于世界的“通用形象”,从而实现了文字之语象和图像之形象之间的通约可能。相较于语言文本而言,建立在互文性基础上的互文语境,为图像阐释提供了不可或缺的阐释规则和锚定体系。然而,生成式AI图像的出场,则宣告了伴随文本的消亡,亦宣告了互文世界的坍塌,图像不得不陷入一个没有符号“踪迹”的孤独世界。
一、人工智能时代的图像阐释学及其反思
人类文化的形成,离不开视觉秩序的构建,即通过发明和制造相应的图像形式,建立一套理解世界的秩序系统。为了认识世界,“人类开始将世界看成客体,并基于此构建各类图像——这也构成了这个时期的时代特征”。作为图像家族中的“进化”形式,现代图像存在一个普遍而深刻的技术生成逻辑,并深度嵌入一个时代总体性的书写模式。图像中刻写着时代的印记,也携带着媒介的语言,亦凝缩着思维的形式。从早期的传统图像,到后来的模拟图像,再到当下的数字图像,图像的形式与命运已然嵌入技术演进的总体轨道——在技术驱动的图像世界里,人类走入图像之中,并在图像维度识别和发现不同的时代逻辑。因此,图像、媒介与时代之间,存在着复杂的“共写”模式,其结果便是形成了相应的文化形式及秩序。雷吉斯·德布雷(Régis Debray)以图像和媒介为尺度,敏锐地发现了人类文明史上不同的“图像时代”。

当图像与媒介深度嵌入彼此的世界,图像阐释便亟需突破瓦尔堡学派(Warburg School)的“象征依赖”,转向“以媒介为方法”的图像阐释学。所谓“以媒介为方法”,即强调引入媒介的物质逻辑,将媒介从原本沉默的载体角色中“解救”出来,探讨媒介技术对图像表征及其生成情景的配置方式,从而超越纯粹的表征结构,探寻由“物”及“图”的意义“传导”模型与机制。然而,媒介技术并非遵循统一的装置原理,而是具有不同的媒介逻辑,由此形成了不同的图像世界。即便是所谓的数字媒介或数字图像,依旧因其装置系统及程序语言的差异,呈现出不同的物质性内涵及媒介性特征。
区别于web2.0时代的数字技术,当前的人工智能(AI)技术已然超越了传统的物质性内涵,亦超越了一般意义上的程序性逻辑。正是在技术变革的语境下,一种全新的图像形式——生成式AI图像已经全面闯入网络世界,其苦苦地追寻一切可能的应用场景,并深刻地改写了“图像时代”的底层规则。相较于一般意义上的数字图像,生成式AI图像作为一种典型的人工智能生成内容(AIGC),不仅改写了数字图像的形成规则,而且改写了图像与技术之间的生成模型。Midjourney、DALL-E3、Stable Diffusion等AI绘图工具的兴起,已然宣告了生成式AI图像时代的来临。而Sora以其无与伦比的视频生成能力,更是将生成式AI图像的想象力推向了全新高度,由此,人们可以相对自由地想象世界,并形成关于世界的图像。实际上,早在Sora诞生之前,类似的文字转视频、图片转视频工具已经引起了广泛的社会关注,如Runway除了基于提示语输入、图片输入的AI视频创作,还允许用户调试并训练自己的个性化视觉模型,以实现从文字/图片到AI视频的转换与生成。需要特别强调的是,本文所强调的生成式AI图像,既包括静态图像,也包括动态图像,即视频文本。显然,从AI绘图到AI视频,生成式AI图像真正实现了“世界模拟器”的意义和功能——除了对世界图像之“瞬间”的呈现,其更为深远的意义便是突破了时间维度的束缚,赋予图像以运动的属性,由此实现了对世界“整体”的把握。
那么,如何解释生成式AI图像这一新兴的图像“物种”,并反思人工智能时代的图像阐释学?这一问题显然难以从图像自身的表征体系中找到答案。唯有回到生成式人工智能的技术规则及程序系统,从图像形成的游戏法则出发,才能真正重构图像阐释学在人工智能时代的知识话语。基于此,本文主要以生成式AI图像为研究对象,立足图像阐释的三个核心命题——阐释本体维度的再现问题、阐释语言维度的象征问题、阐释语境维度的互文问题,重点探讨人工智能时代图像阐释学面临的核心问题及其理论进路。这三大命题直指图像阐释学的基础问题,即图像本体维度的“图像携带了什么”、图像语言维度的“图像如何呈现”以及图像语境维度的“意义何以锚定”。相较于数字媒介时代的其他图像形式,生成式AI图像从根本上对上述三大问题发起了挑战,这促使我们重新审视图像阐释学的理论话语。鉴于此,本文以图像阐释学知识脉络中的三大基础命题——“再现”“象征”和“互文”为概念工具,批判性地审视传统图像阐释学的阐释困境,以期揭示人工智能时代图像阐释学的核心概念范畴及其深层的知识话语。
二、生成AI图像:从再现到生成
如何把握图像与对象之间的指涉关系?像似性(iconicity)是一种基础性的符号依据。作为一种典型的像似符,图像在“像似”维度上确立符号与对象之间的关联结构,并形成相应的指涉关系。由于像似性是图像的第一符号属性,图像所“承载”的内容,必然指向图像之外的世界,即那个“看上去如此”的外部对象。
(一)图像、再现与摹仿
早在亚里士多德的《诗学》中,“再现”便被视为文艺作品的叙事基础和意义原理,由此形成了再现的摹仿论,即文艺作品之所以能够承载主题、传达意义,根本上是因为其拥有一个基础性的再现模型——摹仿世界。通过摹仿外部世界以达到认识世界的目的,是人类认识活动的重要途径和方法。
图像与世界的关系,根本上体现为符号学意义上的再现关系——图像借助一定的视觉语言,再现了事物的外在形态,亦再现了关于事物的理解方式,从而赋予事物一种符号化的感知和认识方式。符号学意义上的世界认知方式,存在不同的指涉逻辑,而图像无疑提供了一种以像似性为基础的再现模型。在威廉·弗卢塞尔(Vilém Flusser)的图像哲学那里,图像被视为有意义的平面,其在本质上揭示了四维时空向二维平面转化的可能。其中,转化的语言和机制则是再现,尤其体现为对外部世界的再现。这里的“外部世界”,不仅是指外部世界的客观事物,亦指有关外部世界的观念与认识。因此,摹仿作为图像再现的本质,主体上体现为一种面向外部世界的“摄取”行为,最终“输出”的是有关外部世界的视觉形态。相应地,图像的再现之内涵,体现为借助其他媒介对事物进行再次呈现或表达,以实现形式之临摹、形态之描绘、性状之显示、征兆之凸显的意义“表征”目的。
那么,如何认识图像所再现之“物”?这便需要回到图像的符号本体维度加以考察。具体而言,之所以说图像具有再现的意义潜能,是因为其拥有一个以外部世界的形式为基础的参照框架,并能够在此基础上“抵达”世界的诸多意义面向。对于图像符号而言,能指与所指之所以能够建立一定的对应结构,是因为所指从概念维度揭示并演绎了能指的“像似”特征或内涵。显然,图像的某些特征或属性投射到对象上,实现了图像与世界之间的符号性勾连。
再现,作为一种符号模式,揭示了世界对符号的依赖,也揭示了图像表意的符号基础,亦揭示了图像阐释的语言基础。图像的再现机制可以从以下四个维度加以认识:一是图像的再现对象,指向一个“看上去如此”的外部世界;二是图像的再现语言,体现为基于视觉思维的表征结构;三是图像的再现模式,受制于媒介本身的技术逻辑及其设定的装置规则;四是图像的再现机制,本质上体现为一个以符号方法为基础的符号学模型。尽管再现的阐释依据是像似性,但是,“再现的相像并不是现实的复制品”。换言之,再现意味着一系列复杂的操作“语言”,其并非对外部世界的简单临摹,而是经由媒介装置的调试与配置,最终“输出”的是一种以摹仿为语义基础的视觉系统或想象模型。相应地,图像与世界的勾连,抑或图像面向世界的抵达,主要依赖再现这一符号基础,即借助一定的视觉符码,临摹、描绘或刻画世界的形式,以实现图像指涉世界、图像代替世界、图像超越世界之可能。
(二)再现:图像与世界的接合基础
如果回到图像的哲学“命运”中,再现便作为图像挥之不去的“宿命”,伴随着图像的“生”与“死”。图像无法直接代替世界,因而唯有诉诸再现的理念与手段,才能实现图像对世界的象征性把握。图像在哲学史上的出场,始终未能摆脱“表征的重负”——图像无法直接捕捉真理,其对世界的把握,本质上是再现性的;而再现的对象,并非指向真理的宇宙,而仅仅是对现实世界有形之物的摹仿。因此,图像的再现,往往被视为一种低级的临摹,难以接近完美的理念,也难以抵达认识的本质。柏拉图早在《理想国》中就已经阐释了图像的再现之本质,认为图像的再现之“物”,乃是一个远离真理的“摹本的摹本”。
柏拉图肯定了图像的再现之本质,只不过他否定了再现的意义潜能——图像是对外部世界的再现,尽管这个“世界”远离真理的世界,但其通过对外部世界的摹仿,成为真理在现实中投射的影子。从这个意义上讲,早在古希腊哲学那里,图像便被置于一个再现结构中加以认识。而尼采开辟的理性主义批判传统掀起了感觉主义“复活”的大幕,赋予图像以“新生”,从而将图像从低级的、从属的、边缘的、非本质的哲学“位置”中“解救”出来,使其具有积极的认识功能。图像的“再现”之“宿命”延续至今,无论是古希腊的柏拉图主义,还是尼采以降的现代西方哲学,都承认图像的再现之本质,并以再现为认识起点,思考图像深层的意义命题——只不过二者对再现之“内容”给出了不同的理解:前者认为图像的再现能力仅限于对物的临摹,无法打开理性的世界;后者则打通了图像与理性之间的壁垒,认为图像能够再现更丰富的意义内容,并抵达观念的世界。因此,无论沿着何种哲学脉络切入,再现都是图像研究的基础问题,一切有关图像的语言、功能、阐释、实践问题,本质上都是围绕再现展开的,最终回应的亦是再现命题。
图像的再现之本质,亦可以从弗卢塞尔的图像哲学中找到类似的答案。弗卢塞尔在语言和图像的关系中考察图像,打通了图像与概念之间的认识管道。如何认识图像与世界的关系?弗卢塞尔给出了一个影响深远的论断:图像是世界与人类之间的中介。而“中介”功能的实现,依赖于图像形成的意义装置——再现。由于人类存在于世界之中,世界包围着人类,因此世界之于人类而言是陌生的,是难以直接把握的——不识庐山真面目,只缘身在此山中。唯有将世界投射到某个表面之上,成为目光的对象,世界才会获得被识别、被认识之可能,而再现恰恰揭示了“投射”的内在语言。经由再现这一面向世界“进犯”的操作技术,世界被幻化为一种关于图像的“缩影”,而“缩影”的“打开”方式,根本上取决于世界在人类面前的“再现”方式。

技术图像的再现系统,已然超越了对现实经验的直接描述,而上升为对经验世界的重新配置与组装。因此,图像在符号学意义上的再现属性,揭示了图像的存在本质,亦揭示了图像与世界的勾连基础。可见,图像从根本上揭示了世界被想象的方式,亦揭示了世界以图像为“媒介”的感知方式。当世界被镜头推向远处,成为目光尽头的一个“缩影”——图像时,图像不再精确地指示世界,而是以画布、银幕、界面等存在形式,“不是把世界呈现出来,而是把它伪装起来”。因此,图像对世界的伪装,恰恰建立在图像的再现模型之上,并通过再现的方式加以实现。
(三)AI图像:不及物的图像
在图像的表征模型中,图像具有及物性,即图像始终在召唤对象,召唤外部世界的显现。如同一个敞开的“容器”,图像更像是外部世界投射在画布上的影子,它并未如同文字一样完全进入思维的世界,而是通过再现世界的方式,建立起与世界的联系。正是在及物性的意义上,图像并非孤独的存在物,世界也并未在图像这里终结;相反,图像顽固地诉说着外部世界的可能“模样”,尝试在视觉与形式维度为外部世界提供一种阐释的“镜像”。同样,正因为及物性深层的连接和接合属性,图像不仅具有召唤对象“出场”或“显身”的能力,而且展现出模仿甚至代替世界的念头和潜能。如果说及物性揭示了图像在符号学意义上的本体属性,即图像以像似性为基础的指示能力,那么,萨特则关注图像的纯粹否定之特性,从而发现了图像的另一种及物性内涵,即通过对时空的凝缩,发现并呈现事物的纯粹物性。概括而言,图像的及物性,揭示了图像的再现之本质——既体现为超越画框之限制,对外部世界进行指示性再现,也体现为将事物从时空限制中“解救”出来,对纯粹物性加以还原与再现。
如果说再现的符号前提是图像的及物性,生成式AI图像则意味着一种全新的图像观念——不及物的图像,其特点便是通过终止与外部世界的联系,从根本上否定图像形成的再现基础,也拒绝图像表意的再现机制。在传统图像那里,外部世界既是再现的摹仿对象,也是再现的参照坐标,亦是再现的神秘幽灵。而生成式AI图像则彻底颠覆了图像的再现之本性——图像不再向外部世界敞开,其目的并非激活或召唤外部对象,它从算法“黑箱”中走来,并从算法装置中获取阐释的资源。概括而言,传统图像的再现本质体现为及物性、摹仿性、镜像性,而生成式AI图像则背离了图像存在的再现基础,也否定了图像生产的再现语言,其本质上是不及物的图像,是反再现的图像,是生成式的图像。如果说传统图像从诞生的那一刻起,便毫无防备地进入媒介与传播的辖域,进入主体意图的接管视域,它苦苦地寻找着意义的归宿,最终“回到家乡”,那么,生成式AI图像则是“离家出走”的图像,它割弃了外部世界的“牵挂”,进入一个“咒语”弥漫的神秘世界——这是一个没有语法的世界,是一个需要“独自”面对的神秘世界,一切都处于永不停息的生成之中,变动不居,无“章”可循。
实际上,“生成”揭示了生成式AI图像有别于再现性图像的本体特征——“再现”是语言性的,是符号性的,是可溯源的,是有踪迹的,是可以借助某种符号理据加以识别和理解的;相反,“生成”则抛弃了再现所预设的认识框架,其断然否定并抛弃了语言、秩序、模式、对象、结构维度的知识话语,转而迫使人们接受算法“黑箱”的合法位置,并承认图像本身之于阐释活动的自主性。
在生成式AI图像这里,外部世界已不再是图像的故乡。图像在“咒语”的“挟持”下出场,并随着“咒语”的变化而“舞动”,最终因“咒语”的消失而获得自由。进一步讲,生成式AI图像动摇了图像得以存在的外部秩序,也否定了图像得以解释的语言规则,更抛弃了图像得以出场的媒介游戏。这使得图像不再指向外部世界,也不再依赖于某个外在的参照对象而存在,它在图像哲学意义上意味着一种由“内”而“外”的生成之“物”。比如,生成式AI图像的阐释,脱离了传统图像阐释学所依赖的表征、语言、象征、意象等符号系统或修辞系统,转而以大语言模型的深度学习系统为基础,直接生成了一种“关于图像的图像”。大语言模型的算法“黑箱”,切断了一切来自外部的线索与想象——至少是人类意识、语言和思维难以捕捉的,并在图像的“内”与“外”之间划出了一道严格的分割线——图像“内部”乃是算法“黑箱”,是“图像自身”,是不为外界所知的“程序欲望”,这里涌动着永不枯竭的生成能量,为图像源源不断地提供能量补给;图像“外部”则是一个孤独的世界,一个被图像放逐的世界,这里不再是图像的故乡,也不再为图像提供太多的解释语言,反而等待着图像的“救赎”。
三、“通用形象”的诞生:
文字何以成为图像?
关于图像与对象之间的关系,目前学界讨论较多的是模仿论、反映论、仿真论和代替论,其分别揭示了图像维度的世界认知方式。作为一种符号形态,图像不仅能够再现事物的特征与形态,而且拥有代替事物的潜能——立足“像似”基础,依据“想象”模式,发生在“跨域”维度,最终体现为一种由此(图像)及彼(事物)的隐喻模式。
相应地,图像的想象力亦体现为图像的象征能力——当图像的意指内容指向某种暗指意义,如话语、意识形态、文化母题等象征意义时,图像与外部世界的关系便呈现出巨大的接合潜能。在图像符号系统中,象征往往是以隐喻为基础,只不过其内涵指向某一规约性的符号意义。作为图像意指的含蓄意指,象征意义必然是符号性的,是话语性的,是修辞性的。对于生成式AI图像而言,无论是文本生产方式,抑或是意义传达机制,都超越了以外部世界为参照的再现模式,也超越了传统再现结构中的视觉语法逻辑,那么,如何理解图像阐释中的象征问题,又如何认识图像对画外空间的“打开方式”?这便需要回到象征发生作用的心智基础——想象(imagination)维度,以文字和图像的关系为考察对象,重新审视生成式AI图像的想象力。
(一)象征:概念的形式
图像并非一个绝对的封闭系统。在图像的画框之外,必然存在一个画外,而图像阐释的基本思路便是竭力地召唤“画外”的世界。相对于“画内”的秩序和结构,“画外”永远是想象性的——至少需要借助想象加以“填充”或“延伸”。
想象力是人存在的基本条件。离开想象力,意义的生产与秩序将无从谈起。相对于语言的想象机制,图像在符号维度的像似性特质,决定了想象之于图像阐释的思维基础。图像中的二维平面之所以具有表达四维时空的能力,根本原因在于图像储存、释放意义的发生基础是想象力。在弗卢塞尔看来,想象既是思维层面的概念,也是一种基本的图像“技术”,具体包括图像绘制的技术和图像解读的技术。相较于语言文字的实指性,图像的虚指性决定了想象在图像认知中扮演着极为重要的协调角色,即将现实时空关系“描绘”成二维平面关系,以想象关系代替现实关系,从而实现世界在图像维度的“成像”。想象的结果便是创造了一种特殊符号,使图像从原始的符号疆域中挣脱出来,成为一种象征,由此实现了图像形态与意义概念的连接。
图像阐释是以想象为思维基础的。无论是认识维度的图像思维,或是语言维度的图像语法,抑或是实践维度的图像修辞,实际上都是在想象的基础上确立了图像认知的理据性与合法性。鲁道夫·阿恩海姆将想象上升为一种视觉思维形式,并给出了“视知觉具有思维力”的论断,从而弥合了感性与理性、感知与思维、艺术与科学之间长期存在的认知断裂。
既然想象力在图像形成及表达中发挥着至关重要的作用,那么,何为人工智能的想象力,又如何理解生成式AI图像的想象力?有别于传统图像的想象方式,AI图像既是提示语“输出”的产物,也是从大语言模型中突然“降临”的产物。因此,我们可以沿着两个维度认识AI图像的想象力:一是从语言和图像的关系维度,认识AI图像在回应语言与概念维度的“图绘”潜能,即“图绘概念”的想象力;二是立足算法“黑箱”的技术装置逻辑,探讨AI图像“无”中生“有”的“创造”潜能,即“创造世界”的想象力。

一方面,就“图绘概念”而言,AI图像的生成主要依据的是计算模型,当用户输入指令时,大语言模型瞬间开启“思考”的开关,在语言“输入”与图像“输出”之间寻求最优的匹配方式。必须承认,传统图像的想象力主要体现为德勒兹所说的第二种画外空间的召唤及显现能力,尤其体现为视觉象征维度的概念生成,即以图像为“媒介”,实现意指概念的生产。从图像到概念的认知形成,依赖于视觉修辞维度的象征实践,常见的修辞策略是通过激活特定的视觉意象或视觉框架,打开形象之外的意义内涵。相较于传统图像对现实的摹仿,生成式AI图像转向了对现实的理解——这种理解是符号性的,是象征性的,尤其是概念性的。在AI图像的生成链条中,一端是用户输入的提示语(prompt),另一端是关于提示语的象征形式。换言之,AI图像最终形成的是一个概念的形式世界,其本质上体现为以概念为认识基础所创建的一种“图示”形式。以Sora为代表的大语言模型通过对其他海量图像的训练与理解,一方面以图像为工具,形成现实认知的图像关系,并在此基础上形成相应的概念体系,另一方面以计算为方法,搭建概念与图像之间的拟合模型,以探寻概念可能“释放”的图像形式。因此,AI图像的想象力,主要体现为图像对于提示语及其概念逻辑的理解能力,即图像注解概念、图示概念、还原概念的象征能力。如果说一般的数字图像主要以程序为控制基础,即根据“输入”的条件,启动相应的程序配置,以实现特定的“输出”功能,那么,生成式AI图像则呈现出一种全新的生成逻辑,其依托语言维度的提示语之描述方式,形成可能的“概念之形式”。
在Sora的运作机制中,图像生产并非完全受制于程序的控制结构,而是依赖于人机之间的协作模式——人类通过输入并调试相应的提示语,不断“试探”大模型的输出方式,以寻找人类认识与模型反馈之间的拟合模型与匹配模式,从而在人机协作中实现AI图像的“图绘概念”之功能。简言之,传统图像的想象力主要体现为从图像中识别和发掘出概念的象征能力,即“从图像到概念”的修辞能力;而生成式AI图像的想象力则更多地体现为图像在“概念之形式”维度的象征能力,即“从概念到图像”的阐释能力。
另一方面,就“创造世界”而言,如果说传统的技术图像输入的是现实之“信号”,输出的是现实之“景观”,那么,输入和输出之间的信息处理方式,本质上遵循的是装置语言——摄影机的机械马达,决定了胶片的“转动”速度及“展开”方式,由此形成了一种基于“视觉残留”机制的成像方式。无论是摄影机的画格累积,或是摄像机的扫描成像,技术图像本质上是对世界的一种编码方式。而早在图像被“输出”之前,技术装置就已经默许了世界的形式与意涵,完成了图像的概念化“操作”。正因如此,技术图像是按照概念的逻辑被组织的,最终输出的是一种有关概念的图解模式。
必须承认,在弗卢塞尔的技术图像理论那里,图像的模仿之“源”主要是现实,或者是现实“投射”之形象。然而,生成式AI图像则背离了图像的摹仿本性,其通过对海量图像资源的深度学习,掌握了图像构成的一般规律,从而在提示语的“激活”和“引导”下,按照大模型的计算“语言”生成世界的可能形式。具体而言,传统的技术图像依然受制于外部世界的束缚,图像的想象方式主要体现为以“现实”为原点或基模的一次“远眺”——无论是纪实图像对现实世界的精准反映,或是艺术图像对现实的自由联想,抑或是数码图像对现实的虚拟仿真,实际上都未能彻底摆脱现实的影子。然而,作为深度学习的产物,AI图像与生俱来的计算性,能够将想象的方式引入一个智能化的计算世界——图像内部的要素以何种方式组合,形成何种布局与结构,产生何种符号后果,已然超越了现实维度的事实性特征,亦超越了艺术维度的联想性原则,转而指向一种以可能性为基础的合理性原则。因此,如果说电子图像模拟的是外部世界的构成形式,生成式AI图像则是对外部世界之组织法则和运动规律的模拟,是对语言模型的模拟。从这个意义上讲,生成式AI图像意味着一种全新的关于世界的想象方式,其超越了传统图像所遵循的神学想象图式,亦超越了电子图像的奇观想象图式,进而从图式的元语言出发,揭示了图式之所以能“生发”图像、“派生”图像、“配置”图像的元图像(meta-image)属性。
(二)Sora的世界:语言的“通用形象”
生成式AI图像无疑完成了一项神奇的符号“转码”工程,即创造了一种从语言到图像的想象方式,由此实现了二者的象征性勾连。两种事物之所以能够建立一种由“此”及“彼”的想象关系,根本上是因为二者之间的相似性被发现了,从而形成了一种以相似性为思维基础的想象关系。文字和图像原本属于不同的符号域,彼此之间的意义“交换”主要是通过语图之间的互文语境来传递并实现的。然而,生成式AI图像所实现的“转码”工程——从概念到形式的转换,根本上依赖于“形象”的发明,即通过发现图像和概念之间的相似性联系,形成意义交换的想象空间——文字对特定想象“形式”的召唤与图像对特定意义“概念”的建构,发生在同一想象模式中,并且在二者的“协商”中,实现了彼此之间的连接和通约。
那么,作为分属异质范畴的事物,文字和图像之间究竟存在何种相似性?大语言模型又是如何基于这一相似性实现从语言到图像的“转换”工程?唯有找到文字和图像之间的通约基础,才能真正搭建文字和图像之间的沟通“媒介”。必须承认,无论是从语言到图像的转换,抑或是从图像到语言的阐释,都离不开连接关系得以建立的共享符码——形象。如果说图像是物质性的,其中储存着关于外部世界的物性,形象则是一个精神范畴的概念,其具有顽强的繁衍和克隆能力,存在于图像之中,流动于媒介之间,生生不息。
实际上,“图像转向”之所以掀起了一场“图像取代词语”的浪潮,根本上是因为形象之生命力,已然超越了文字的流通与增殖能力,并主导了一个时代的想象模式,以至于对语言的理解和认识,在某些情况下不得不诉诸形象。而所谓的“语象”,不仅意味着一种有关语言的视觉形式,而且已然上升为一种符号图式,揭示了语言对形象的深深依赖。米歇尔将指出,“语言和写作本身也是两种媒介,一种以声音形象获得实体,另一种则以图形形象获得实体”。不难发现,在语言这里,形象提供了一种意义的“展开”方式;而在图像这里,形象揭示了文本的想象模式。正因如此,形象作为文字和图像之间的交换“货币”,扮演着积极的“媒介”角色,其功能便是实现了二者之间的过渡与转换。
因此,考察从文字到图像的转换模式,必须聚焦于“形象”的“媒介”机制,如此才能真正揭示生成式AI图像的形成原理。尽管人工智能遵循的是一种计算逻辑,其对于形象的理解显然不同于人类的思维模型,但作为一个生成性的程序装置,大语言模型的深度“学习”,必然体现为对图像之形象的“学习”,最终的“训练”结果则指向某种“形象的秘密”,尤其体现为文字与图像进行转换的加工模式,如图式和意象。作为典型的形象之“形式”,图式和意象更像是一个生成模型,其中储存着图像的“内部语言”,如图像构成的机制、规律、要素关系等,因此能够源源不断地“释放”出相应的图像形式。在当前的大语言模型中,为了最大限度地还原提示语的指涉内涵,创作者往往需要采用更为细致的描述方式,如精准地表述画面的风格与色调,精确地描绘画面中的要素结构和关系,翔实地描述主体的运动方式和过程,等等,以此最大限度地捕捉语言之形象,实现图像维度的形象还原,从而完成从形象到图像的视觉“繁衍”。

区别于一般的自动化程序装置,Sora赋予了主体更为自由的调试空间和想象权力——如同“咒语”所打开的魔法世界,提示语本质上服务于形象的生产,以形成关于世界的想象方式。这里的想象方式,主要体现为一种隐喻模式,即在文字和图像之间识别并确立一种相似性联系,并将这种相似性转化为一种共享的视觉图式、意象等视觉形象,由此以形象为“媒”,打通文字和图像之间的通约“路径”。即便是当前备受关注的“让老照片动起来”这一图像转视频应用模型,本质上依旧是在语言“咒语”的提示下,赋予图像一定的时间宽度和运动属性,以复原“曾经”的场景。
实际上,每一次提示语的变化,都意味着对大模型参数的调整,其结果便是形成语言的“通用形象”(general image)。正因为“通用形象”的形成,文字之“语象”和图像之“形象”之间不仅具有转换之可能,而且具有通约之“语言”基础。经由无数开发者的探索和实践,目前网络上出现了一系列有关Midjourney、Stable Diffusion等大语言模型应用的风格代码“咒语”,用户只需复制相应的代码,便可以得到理想的视觉风格。显然,这些“咒语”的标准化生产,预示了语言的“通用形象”愈发稳定与成熟。因此,Sora作为世界模拟器的意义,并不仅仅体现为对世界的视觉理解,其更为深刻的内涵在于借助算法“黑箱”,形成一套关于世界的“通用形象”——人们以形象的方式“图解”世界的可能形式,亦在“语像”维度建构了一套通用的视觉形式。相应地,语言与图像的接合,逐渐摆脱了符号学意义上的意指模式,而沿着算法逻辑展开,在彼此之间的反复试探中,以“通用形象”的生产为方法,形成了相对稳定的通约“语言”。
四、不可见的符号“踪迹”:
互文世界的坍塌
传统图像存在一个确定的出场方式——无论是艺术图像,还是电子图像,抑或是数码图像,都不可避免地携带着某种相对稳定的“出厂设置”。其作为图像阐释的元语言,不仅决定了图像阐释的基础语言和规则,而且深刻地影响着图像可能的“命运”轨迹。换言之,图像从何处来,到哪里去,服务于何种功能和目的?这些问题早在图像诞生的那一刻,便如同一种视觉“基因”,刻写在图像的语言深处——待到图像阐释之际,这些潜藏在图像深处的符码、因素、线索,便会被“召唤”出来,作为一种顽固的解释“力量”或阐释“条件”,限定了图像的意义方向。
传统的图像阐释学赋予了语境极大的阐释效力,认为图像阐释高度依赖于图像所处的语境关系。相对于语言文本而言,图像阐释依赖于一定的锚定体系,不同的“锚定”方式,决定了不同的图像阐释方式。如果说语言文本阐释具有相对的确定性,那么,图像文本与生俱来的符号特征,使得其意义阐释具有更大的浮动性与不确定性。这便需要借助语境加以锚定,以确立图像阐释的意义起点和可能方向。
(一)互文语境:图像阐释的锚定体系
图像阐释包含三种常见的语境形态,即文化语境、情景语境和互文语境。作为一种基础性的语境形态,互文语境从根本上揭示了文本的存在方式,亦揭示了阐释行为所依赖的意义规则。具体而言,任何一个文本的存在与出场,都不可避免地携带着其他文本的“痕迹”与“影子”,并在与其他文本的互文关系中,获得了来自外部的阐释“线索”。这些为文本阐释提供“资源”的文本形式便是符号学意义上的伴随文本(co-text)。因此,所谓的互文语境,即是文本与其伴随文本所搭建的文本网络与意义世界。
作为图像阐释的资源或线索,图像的伴随文本并非外部“闯入”的偶然因素,而是携带着一种规约性的阐释“语言”,那里储藏着某种普遍的阐释“密码”。可以想象的是,离开弥散在图像周围的伴随文本,图像阐释注定是艰难的,甚至是不可能的。正是在伴随文本及其搭建的互文语境之中,图像汲取生产的灵感与养料,也获得了阐释的依据和资源,最终在互文语境这里获得图像阐释所必需的锚定体系和符号规则。
区别于传统图像相对稳定的规约体系,生成式AI图像的算法“黑箱”,否定了符号学意义上的互文关系,亦否定了互文语境之于图像阐释的基础性决定意义。比如,传统图像所携带的作者“印记”,已经难以在AI图像那里找到一定的“踪迹”。按照作者论的基本假设,传统文本那里储藏着一定的作者意图和作者身份,其赋予了文本阐释一定的背景信息和解读视角。然而,作者论成立的前提是,文本的作者具有明确的指向性,即作者是存在的,作者意图是可辨识的,作者身份是可识别的,作者风格也是可探寻的。作为一种典型的伴随文本,作者在文本中的“复活”,赋予文本阐释极为重要的阐释依据。然而,建立在提示语基础上的生成式AI图像,则拒绝图像生产的“作者”主体及其携带的“人格”底色。因此,任何尝试通过作者这一伴随文本来寻找阐释“线索”的努力,在AI图像这里注定是无力的、徒劳的。
(二)深度“学习”:互文的幻象

互文语境形成的前提和基础,乃是与图像有关的其他信息在文本这里的“闯入”或“显现”。这些来自其他文本的互文信息,一方面携带着图像阐释不可或缺的破译信息,另一方面构筑了图像阐释必不可少的外部语境。
相反,生成式AI图像对其他图像的“接纳”是有限的:它从互文世界中“抽身”出来,一方面拒绝图像阐释的互文语境,另一方面否认其他图像对于阐释行为的影响。如果说传统图像存在于互文语境之中,其阐释过程离不开伴随文本的在场,那么,生成式AI图像则宣告了互文语境的坍塌以及互文世界的衰落——由于一切都在算法“黑箱”中默默地发生,AI图像被推向一个“与世隔绝”的装置系统之中,在那里接受大语言模型的计算与调试,并形成了一种远离其他图像的图像形式。无论是文本生成过程,还是意义阐释方式,生成式AI图像已然走出了互文世界,它隔断了与外界的联系,也隔断了与其他图像的互文链条,从而将自身的“命运”完整地交给了算法、程序与代码。当算法主导了AI图像的内部“语言”时,其他图像不过是平行世界中的“风景”,无声地注视着AI图像的自我指涉及魔幻表达。因此,生成式AI图像离开了外部世界的牵制,也跳出了与其他图像的互文结构,最终形成的并非外部世界的“镜像”,亦非其他图像投向“黑箱”的“影子”。
诚然,生成式AI图像的形成,依赖于对其他图像的深度学习,而常见的“学习”思路便是从其他图像那里汲取“养料”,但是,这一面向其他图像的“学习”过程,是否依旧意味着一种互文关系?唯有重新认识AI图像与其他图像之间的关系,才能真正理解互文性之于图像阐释的适用性问题。尽管AI图像的训练模型建立在海量的图像基础之上,并依靠算法加以实现,但一个不争的事实是,深度学习的过程,并非对其他图像之外在形式的简单模仿,而是体现为以其他图像为“媒介”,获取世界构成之奥秘,最终在图像维度形成关于世界之内涵与本质的理解模式。Midjourney、Runway、Sora、Genie、Pika的“记忆”里,储存着关于世界之本质的“图像密码”——散落在网络世界的其他图像“碎片”,仅仅参与大语言模型的训练过程,而一旦训练完成,它们的使命便宣告终结,如同“数字弃儿”一般被大模型抛弃,重返互文世界,回到“尘世”之中,回到原初的网络“位置”。
区别于互文理论所预设的文本之共同在场或意义之双向流动,生成式AI图像与其“学习”对象——散落在网络世界的其他图像——之间的关联,仅仅是一种单向的、微弱的、易逝的关联。例如,Sora的扩散模型(diffusion models)超越了早期的循环网络(RNN)或生成对抗网络(GAN)。具体而言,GAN的基本原理是机器对人的模仿,即通过对其他图像的机械模仿而达到相应的“创作”水平;相反,Sora的扩散模型则旨在实现“像人一样思考”,其通过对模型的反复调试和训练,掌握相应的构图规律、要素关系、时空结构等,并在此基础上形成关于世界的理解模式,如关于“美”“恐怖”“和谐”等概念的图式。
因此,Sora的训练方式并非停留在简单的图像“创作”层面,而是要成为一个会“创作”的“人”,这便从根本上否定了生成式AI图像与其他图像之间的互文关系。具体而言,AI图像与其他图像之间并不存在一个可辨识、可互通、可通约的意义管道,人们难以从生成式AI图像的再现结构中,识别出其他图像的“影子”,也难以将其视作互文意义上的阐释“线索”。其他图像对于Sora的“贡献”,仅仅体现为模型层面的数据关系,最终影响的是模型的参数和指标。在其他图像离场的那一刻,Sora便作为一个独立的算法装置,依靠提示语的“输入”实现图像内容的生成。
之所以说生成式AI图像摆脱了互文关系的束缚,还有一个重要的原因在于:大语言模型的训练数据,除了散落在外部世界的图像,还包括模型本身生成的图像素材,这使得建立在“投喂”和“训练”基础上的图像关系及其深层的数据系统,超越了简单的“学习”和“模仿”维度,而呈现出互文理论难以解释的复杂内涵和过程——图像的“输入”过程,表面上是以“学习”的名义建立了一种互文性的作用结构,但实际上却是一种互文的幻象。在AI图像这里,我们已经无法在漫无边际的网络世界中精准地识别出大模型的“学习”对象,更无法识别出阐释学意义上的符号“踪迹”。换言之,网络世界的其他图像,对于AI图像而言并不具有伴随文本的意义,其无法在互文维度协助生成式AI图像实现图像“出场”的溯源、图像“语义”的锚定,以及图像“命运”的追踪。概括而言,当算法“黑箱”主导了大语言模型的“学习”过程时,生成式AI图像与其他图像之间的关联,实则被牢牢地捆绑在计算与代码维度而非认知与意识向度——其他图像并未为AI图像带来阐释维度的锚定、限定、理解方式,相反,其意义仅局限于模型训练的参数和指标维度,以赋予“图像成为图像”之可能。
概括而言,在算法“黑箱”的冲击下,建立在再现、象征与互文基础上的图像阐释学迫切呼唤知识话语的拓展与创新。唯有以再现、象征、互文为概念工具,批判性地审视生成式AI图像所面临的阐释困境及打开的知识话语空间,才能真正把握图像阐释学知识体系中的“变”与“不变”。具体来看,就阐释本体维度的再现问题而言,生成式AI图像的形成基础是生成而非再现,因此,图像阐释亟需超越再现维度的符号表征逻辑和视觉语言体系,回到“生成”这一图像之本体属性,从而以图像的“自我指涉”为认识基础,重构图像与世界之间的认识关系;就阐释语言维度的象征问题而言,生成式AI图像通过对“通用形象”的生产,调和了文字和图像之间的矛盾,也赋予了二者一定的通约基础,从而回答了“概念何以成为图像”这一理论命题;就阐释语境维度的互文问题而言,生成式AI图像从互文性的意义规则中“逃逸”出来,摆脱了外部图像对阐释活动的限定与影响,由此呼唤一种全新的图像阐释规则。需要特别强调的是,当不可知的、失去“踪迹”的、没有“语法”的算法“黑箱”已然成为AI图像的装置基础时,如何赋予算法“黑箱”一定的理论位置,即将其纳入阐释学的知识框架中加以研究,无疑是人工智能时代图像阐释学不得不回应的理论命题。
(原文为2.4万字,文本系节选内容,详细论述参见原文)
本文转自 | 南京社会科学