原文刊载于《全球传媒学刊》2025年第2期“智能传播”专栏
作
者
徐敬宏:北京师范大学新闻传播学院教授。
郭迪帆(通信作者):北京师范大学新闻传播学院博士研究生。
概
要
【摘 要】大语言模型不仅对新闻行业产生了深远的影响,同时也为新闻传播学界提供了强有力的科学研究工具。本文主要基于英语学术界的相关实证研究,探索如何有效利用相关模型开展新闻传播学的实证研究。通过数据生成、数据分析和数据模拟三大途径,大语言模型不仅可以与实验法和内容分析法相结合,辅助研究设计,更能够降低文本分析的技术难度,推动仿真研究的创新。此外,本文在案例介绍的基础上,提供了宏观的方法指南,旨在帮助新闻传播学研究者拓展研究思路,实现“只计算、不编程”的愿景。
【关键词】大语言模型;ABM仿真;人机传播;文本分析
一、引言
近年来,大语言模型(Large Language Models,LLMs)及其典型代表——生成预训练转换器(Generative Pre-trained Transformer,GPT)成为社会科学研究的热门话题。大语言模型是一种基于深度学习技术的人工智能模型,用于处理和生成自然语言文本。这些模型能够理解和生成文本,并可完成文章修改、对话、翻译等自然语言处理任务。当前业界热门的ChatGPT和DeepSeek均属于大语言模型的典型代表。其中GPT系列模型由OpenAI开发,而DeepSeek则由深度求索公司研发。它们均基于预训练与微调技术,能够高效执行各类自然语言处理任务。本文的大语言模型,泛指国内外基于大量数据来训练和开发的各类深度学习模型,而不仅仅局限于ChatGPT或DeepSeek。
大语言模型强大的内容生成和分析能力对新闻业产生了深刻的影响。目前有很多学者讨论大语言模型对新闻内容生产(曾晓,2023;郑满宁,2023)、新闻业媒介环境(何向向,2023;马晓荔,2023)、新闻记者的角色定位(张建中、坎贝尔,2023)、新闻传播教育(张波,2023)等的影响。2023年5月14日,由北京师范大学新闻传播学院主办的“ChatGPT启示会”在京举办。与会专家围绕大语言模型下的信息生产与流通、伦理法规、文化三个领域的问题进行研讨,提出了66个传播学研究的新问题,包括六个研究方向:大语言模型的技术与应用、大语言模型的伦理和法规、大语言模型的社会影响、大语言模型的教育和学科发展、人机交互、大语言模型的技术接受和认知差异(张尔坤、张一潇,2023)。然而,目前国内的研究主要集中在前四个领域,而且绝大多数是思辨研究,很少实证探索人机交互、大语言模型的技术接受和认知差异等议题。
工欲善其事,必先利其器。值得指出的是,大语言模型本身也可以作为一种强大的社会科学研究工具。为此,本文采用循证的系统文献综述的方法(Denyer & Tranfield,2009),对目前西方前沿的大语言模型实证研究进行综述,介绍如何将大语言模型作为一种科研工具,开展相关的新闻传播学实证研究,具体包括以下五个步骤:(1)通过试点研究确定研究问题,即大语言模型在新闻传播学中的应用。(2)对研究进行定位,首先在Web of Science数据库进行检索,使用的关键词包括Large Language Model(LLM)和Generative AI(GAI),得到初步的检索结果1478条。(3)对相关文献进行选择与评估,重点关注2024年6月20日科睿唯安发布的新闻传播学新版JCR目录(含ESCI)中的期刊,限定发表时间为2023年及以后,剔除与主题不相关的论文后,共得到符合条件的论文39篇,来自Digital Journalism、Communication Methods and Measures、New Media & Society等期刊。(4)在重点阅读这39篇文献的基础上,本文发现大语言模型对新闻传播学研究的影响可以沿着数据生成、数据分析和数据模拟的思路进行归纳和汇总,随后利用EBSCO、GoogleScholar等数据库进行二次文献收集,补充社会科学领域的其他关键研究,因为这些研究采用的通用技术对新闻传播学同样具有重要意义。(5)在分析与综合阶段,讨论如何将大语言模型与实验法、内容分析法、文本分析、仿真等研究方法结合起来开展研究设计,具体可参见下文的数据生成、分析、模拟三大板块的论述。本文采取的系统文献综述的方法在一定程度上克服了叙述性综述(Tranfield et al.,2003)或专家临时选取文献的综述(Kitchenham et al.,2009)的不足,有助于深入挖掘与本文有关的文献,帮助新闻传播学研究者开阔研究思路、提高科研效率,同时为丰富大语言模型领域的实证研究贡献新闻传播学的力量。
二、数据生成:大语言模型辅助研究设计
(一)大语言模型的数据增强方法
大语言模型的数据增强方法是指其根据给定的文本或主题,能够预测或生成新的、相似的文本或段落的能力。这种能力基于语言模型对大量文本数据的统计学习和语言规则的理解,使其模拟人类的语言表达方式,生成较高质量的新文本。大语言模型的数据增强方法主要体现在文本扩写、文本续写、主题生成以及情境对话等方面。Omizo & Hart-Davidson(2024)发现,当大语言模型生成的文本以预期的频率和强度包含特定体裁信号时,这些文本就可以被视为准确的、可靠的和值得信赖的内容。
大语言模型的数据增强方法对于开展社会科学研究具有重要意义,可以为科研人员提供更高效的研究方法。一方面,大语言模型能够模拟人类的语言和思维,用户可以通过与大语言模型对话互动,从而获得新的知识和洞见;另一方面,研究人员也可以在不依赖真人参与的情况下,利用大语言模型合成文本数据,进行自动化研究、智能辅助研究等,扩大研究范围,提高研究的灵活性和深度。在新闻传播学的实证研究上,大语言模型可以与实验法以及内容分析法等研究方法相结合,进一步完善研究设计、扩大研究范围、提升研究效果。与实验法结合时,大语言模型可以参与实验被试的互动环节,半自动生成文本,进而帮助研究者测量人机互动的传播效果;与内容分析法结合时,大语言模型可以辅助研究数据生成,全自动合成文本,为研究者提供多样化的数据来源。
除此之外,一些大语言模型还有强大的图像(视频可以看作多帧的图像)生成能力。大语言模型的图像生成能力是指其根据给定的文本描述或主题,生成与之相对应的图像的能力。这种能力基于模型对大量图像数据和相应文本描述的学习,使其能够理解和生成符合描述的高质量图像。大语言模型的图像生成能力主要体现在图片生成、图像编辑、图像风格转换和图像补全等方面。有研究表明,借助大语言模型和多模态渠道可以将自动化视觉分析应用在社交媒体影响研究中,弥合现有计算机视觉工具的输出与媒体效果研究相关理论概念之间的差距(Peng et al.,2024)。
大语言模型的图像生成能力可以为科研人员提供更多元的研究方法和更丰富的数据来源。在视觉分析方面,大语言模型可以生成符合特定主题的图像,帮助研究人员分析和理解视觉传播的效果,在研究某一新闻事件的视觉传播效果时,研究人员可以使用大语言模型生成相关的新闻图片,分析不同视觉元素对受众的影响。例如,有研究者利用大语言模型的文生图功能,分析了在六个月内由AI(Midjourney)生成的84张图像,来回答“谁是记者”“记者的形象如何”这些问题,揭示了人工智能对记者形象的理解(Thomas & Thomson,2023)。再者,新闻图片在新闻报道中起到至关重要的作用,它们不仅传递信息,还能够吸引受众的注意力并增强信息的传播效果。大语言模型可以根据新闻报道的内容自动生成相关图片,这不仅提高了新闻制作的效率,还能够为读者提供更加丰富和更为直观的信息。此外,大语言模型还可以对已有的新闻图片进行编辑和修复,同时确保图片的质量和一致性。
如今,用户通过PC和手机终端可以随时随地访问大语言模型的应用。随着大语言模型的成熟,更加流畅的语音交互和更加成熟的视频生成功能也有望在各类移动终端实现。
(二)大语言模型与实验法相结合测量人机传播效果
人机传播正在成为一种新的传播形态:广义上,机器参与的各种能达及人的智能传播活动都可以算作人机传播;狭义上,人机传播指的是同为传播主体的人与机器之间的直接互动(彭兰,2022)。有学者指出,用户与大语言模型的对话互动的本质是一场人机传播(姜泽玮,2023)。大语言模型这种人机传播的互动模式有何新特点?大语言模型参与的人机互动是否会影响用户的认知和态度?这一系列问题有待通过新闻传播学的实证研究进一步探索。
目前,西方学者已经开展了一些与大语言模型有关的人机传播实证研究。例如,Jakesch等(2023)的一项研究,在线招募了1506名参与者并随机划分为3个组别。所有参与者都被要求撰写一篇文章来讨论社交媒体是否对社会发展有益。第一组参与者需独立进行写作;第二组参与者在带有“社交媒体有助于社会发展”观点的大语言模型工具的辅助下进行写作;第三组参与者在带有“社交媒体不利于社会发展”观点的大语言模型工具的辅助下进行写作。然后,全部参与者都被要求填写一份关于社交媒体态度的问卷,并邀请独立评委评估他们在写作中表达的观点。研究发现,与具有明确观点的语言模型进行互动式写作可以引导参与者的思考,使他们的观点更趋近于该语言模型的立场。
Kadoma等(2024)调查了与大语言模型共同写作如何影响与用户福祉相关的三个指标:融入感、控制感和主人翁感。在一项在线情景实验中,参与者被要求使用大语言模型提供的两种风格(自信的或者犹豫的),向领导写信提出职位晋升的请求。研究结果表明,虽然大语言模型的风格选择并未改变参与者的融入感,但确实影响了他们的控制感和主人翁感。相比使用自信风格的大语言模型,使用犹豫风格的大语言模型进行写作的参与者表现出更强的控制感,最终成文也似乎更贴近其写作风格。
(三)大语言模型与内容分析法相结合进行交叉验证
对于研究者来说,用户数据在某些情况下可能是稀缺的,因此常常会阻碍研究的进展。大语言模型可以用来模拟生成文本,帮助研究者丰富数据来源。这种合成的数据不仅可以用来训练文本分类器,而且可以与真实数据进行交叉验证,帮助新闻传播学研究者利用内容分析法来进行编码和框架识别。
首先,通过大语言模型合成数据,可以训练文本分类器。Meyer等(2022)的研究指出,在生成数据方面,随着预训练语言模型的不断改进,其生成数据的能力已经超越了传统的数据增强技术。他们对合成的数据与真实的用户数据进行比较,并评估了在合成数据和真实数据的不同组合上训练的分类器的性能。他们发现,虽然分类器在合成数据上的效果不如真实数据,但是在可用数据和资源非常少的情况下,合成数据的分类器可能比自然数据的收集和注释更为可取。
其次,除了训练分类器以外,大语言模型的合成数据还可以与传统内容分析法进行交叉验证。框架理论是经典的新闻传播学理论,也是内容分析法常常援引的理论之一。Luo等(2023)将大语言模型应用于模拟生成文本,研究非西方移民餐厅的污名化现象。通过文本分析,他们对美国14个州的210万条英文餐馆评论的框架差异进行探讨,并评估了有关移民餐厅态度的社会理论。他们的研究数据来自“美国版大众点评”Yelp平台上的公开数据集,研究亮点在于他们借助大语言模型额外合成了7600条模拟评论,并与Yelp的真实评论进行对比。研究发现,大语言模型生成的评论再现了许多与真实评论相同的框架倾向。该合成评论的具体方法是给ChatGPT不同的提问,变换字段变量,例如情感(是积极还是消极)、不同价格区间(<10美元;10~25美元;25~50美元;≥50美元)、食物种类(美餐、中餐、墨西哥菜、意大利菜等),以及评价的关注点(菜品、饮料、环境等)。例如,研究者可以给大语言模型以下提示词:请模仿顾客对以下餐厅进行非常积极的点评,这家餐厅人均消费25~45美元,主要经营日本料理,评论的重点放在装修环境上。这样一来,研究者就可以得到模拟的评论,再与用户真实的评论进行对比,从而对内容分析的结果进行交叉验证。
三、数据分析:大语言模型降低编码门槛
(一)传统的文本数据分析
文本分析是一种对文本数据进行自动或半自动处理的方法,主要包括词频分析、主题分析、情感分析以及语义分析等。词频分析是最基础的分析,是指对文本中某个单词出现的频率进行计算,例如统计B站上某UP主视频弹幕中出现的高频词汇。主题分析和情感分析相对词频分析更进一步:主题分析是指对文本进行主题挖掘,识别文本中隐藏的主题,例如从多篇新闻文本数据中分析出主要的新闻话题;情感分析是指提取和分析文本中的情感偏向,例如对小红书的评论进行情感分析。语义分析涉及对文本中的语言内容进行分析,通过语义分析可以深入理解文本的内涵,例如对某个访谈片段进行语义分析。
传统的计算机辅助文本分析涉及很多数学和统计知识,使用门槛较高。进行词频分析时,相关分析往往借助Python等编程语言先对文本素材进行分词预处理(清洗、分词、去除停用词以及转换为小写等),再对分离出来的词语进行词频统计,最后依据频率进行排序和结果输出。开展主题分析时,潜在狄利克雷分配(Latent Dirichlet allocation,LDA)主题模型是最常见的分类方法之一,可以将文本数据转换成主题空间的向量表示。在对文本进行预处理的基础上,依次进行LDA主题模型构建、主题识别和主题解释。进行情感分析时,情感分析大致可分为篇章级、句子级、词语级三个层次,其中最基础的任务是信息抽取,常用的分析方法有基于情感词典的方法、基于传统机器学习的方法和基于深度学习的方法,通常使用情感分析模型(例如VADER),以及Python中的NLTK库。语义分析是文本分析中最具挑战性的数据分析之一,包括文本相似度分析、命名实体识别以及词义消歧等。开展语义分析时,文本数据需要经历文本预处理、语法分析、语义分析和知识表示等几个阶段,才能得到分析的结果。
(二)利用大语言模型进行文本数据分析的方法
大语言模型大大降低了文本数据分析的技术门槛。传统的借助计算机的文本数据分析或多或少需要编码和调试,无论是初级的词频分析,还是高阶的情感分析、主题分析和语义分析等,都要求研究者具备一定的计算机水平。相比之下,大语言模型支持通过对话的形式,对输入的文本进行自动分析,而无须关心运算过程。目前,主流的大语言模型产品都已经具备基础的文本分析功能。
以百度文心一言为例,它嵌入了“分词”“词频统计”“情感分析”“主题分类”和“语义角色标注”等功能,研究者只需要导入想要分析的文本数据,然后告诉文心一言拟使用的功能,就可以进行分析,全程不需要编码,只需要用文字描述任务需求。例如,进行词频分析时,研究者告诉文心一言首先调用“分词”功能对文本进行分词,再调用“词频统计”功能对分词后的文本进行词频统计,最后观察高频词汇,了解文本中出现的词汇及其出现频率。进行情感分析时,研究者只需要选择要分析的情感类型,如积极、消极或中立,就可以查看情感分析结果,了解文本整体情感倾向。进行主题分析时,研究者只需要告诉文心一言需要分析的主题类别,如科技、娱乐、教育,便可以查看主题分类结果,了解文本讨论的主题。文心一言支持的语义分析功能包括归纳文本主旨、实体识别、语义匹配和相似语义文本生成等,进行语义分析时,研究者只需要告诉文心一言需要的功能即可。关于单次文本输入上限,目前文心一言为1024字,GPT4为2048tokens,讯飞星火约5500字,Bard约9850字符,New Bing为4000字符。除了GPT4限制每三个小时25条对话和New Bing限制每次聊天仅20次对话之外,其余模型均无限制。因此,就10万字以内的文本分析而言,基于聊天框对话的输入形式对于研究者来说相对轻松,一般无须调用后台应用程序编程接口(Application Programming Interface,API)。
相比之下,智谱清言支持更强大的文本数据批量分析。智谱清言为用户提供了智谱清言库,并提供具体的函数供具备基础编程知识的研究者进行调用:例如使用“get_word_counts函数”计算文本中每个单词的词频、“Analyzer.sentiment_analysis函数”计算文本的情感极性、“Analyzer.theme_analysis函数”计算文本的主题、“Analyzer.semantic_analysis函数”计算文本的语义。当用户询问智谱清言如何进行某一分析的时候,智谱清言就会把相关的代码生成出来,供用户直接复制粘贴使用。对于体量更大的文本数据分析,例如百万、千万级别的文字,研究者需要借助大语言模型的API来实现。目前大部分商业公司的API需要付费调用,仅有阿里的通义千问等为数不多的大语言模型是开源的。对于一般的新闻传播学研究而言,免费的大语言模型就可以满足大部分研究者的需求;对于大型的研究而言,可能还是需要团队的合作和API的调用。
国外的大语言模型,例如OpenAI的ChatGPT、微软的Copilot的用户可视化界面,与国内的大语言模型基本相同,其交互方式也类似。对于具备一定计算机编程能力的研究者,GPT的API接口可以帮助他们实现功能更复杂、数据体积更大的运算。例如,Kheiri & Karimi(2023)运用大语言模型GPT来对社交媒体上的文本进行情感分析。该研究采用了三种主要策略:(1)使用GPT-3.5Turbo进行提词工程;(2)对GPT模型进行微调;(3)创新性地进行嵌入分类。结果表明,GPT方法在预测性能方面表现出显著的优越性,F1评分比最先进的机器学习模型高出22%以上。这项研究还发现,GPT模型在处理诸如理解上下文和检测讽刺表达等复杂问题方面表现出色,这表明GPT大语言模型在情感分析中具有巨大的潜力。
(三)利用大语言模型进行新闻或社交媒体文本数据分析
大语言模型可以成为新闻传播学研究者得力的数据分析工具。研究者可以使用大语言模型来分析社交媒体帖子、新闻文章、政府文件或访谈记录等文本,以探讨不同话题和事件的情感偏向。大语言模型能高效完成传统计算机辅助分析的任务,以B站弹幕数据为例,对这些数据进行词频分析,可以找出评论中出现最多的单词或词组,从而找出关键词,了解B站用户关心的核心信息;对这些弹幕进行主题分析,可以帮助我们发现评论的关注点和热门话题;对弹幕数据进行情感分析,可以了解B站用户的情感倾向,包括情感极性(负面、中性、正面等)和情感强度(较强、一般、较弱等)等;对弹幕数据进行语义分析,可以洞察用户深层次的情感交流和语义网络。
此外,大语言模型在新闻或社交媒体文本数据分析中的应用不止于传统的数据处理任务。例如,Feng等(2024)的研究探讨了大语言模型在社交媒体机器人检测中的机会和风险。该研究设计了一种基于大语言模型的机器人检测器,采用异质专家混合框架来处理多种用户信息,从而提升检测效果。通过在两个数据集上的广泛实验,他们发现,仅用1000个注释样本进行指令调优后,大语言模型能够比现有的最先进方法提升高达9.1%的检测准确率。然而,该研究也揭示了大语言模型在对抗检测策略中的风险,即通过大语言模型引导的文本和结构信息操控,现有的机器人检测系统的性能可能显著下降,下降幅度高达29.6%,从而影响系统的校准和可靠性。这表明,尽管大语言模型在文本分析方面展现了巨大的潜力,但也伴随着一些挑战。大语言模型在新闻和社交媒体文本分析中的应用,在提供了新的研究工具的同时,也提醒我们需要警惕其潜在的风险和局限性。
未来,随着大语言模型的进步,文本数据分析的功能将变得更加强大。一方面,上述四种传统的数据分析方法会变得更加精准、细化:(1)大语言模型有望对输出的结果进行可视化图表展示,并配以文字描述;(2)主题分析得到的主题数量可以根据提示词的不同进行个性化定制,允许用户指定或者微调;(3)情感分析进一步细化情感维度,像传统的情感分析一样,给研究者返回一个具体的情感数值,以帮助研究者进行更加精确的情感分析和不同文本的情感对比;(4)语义分析的角度更加多维,在结果呈现上,采用更加学术化的表达进行输出。另一方面,大语言模型或许将开发更加强大和稳健的文本分析功能:(1)社交网络分析:使用ChatGPT来分析社交网络数据,以揭示社交网络结构、关系和网络中的信息传播模式,这可以帮助新闻传播学研究者探索社交网络对信息传播的影响。(2)社交媒体情境分析:利用大语言模型对社交媒体上的文本进行上下文分析,以理解信息传播的背景和情境,包括时间、地点和涉及的用户。(3)多媒体内容分析:除了文本,还可以使用大语言模型来分析关联的图像、视频和音频内容的传播,而不是将文本和其他媒体形态等进行割裂的单独分析,例如小红书上的帖子一般具有图文等多种媒体形态,这有助于研究不同媒体形式的信息传播。(4)跨文化研究:利用大语言模型进行多语言分析,研究不同文化和社会背景下的信息传播模式和趋势,帮助跨文化传播和国际传播领域的研究者减少语言障碍。
四、数据模拟:大语言模型革新仿真研究
(一)传统的仿真方法
代理人基模型(Agent-Based Modeling,ABM)仿真是对真实世界的模拟,它通过抽象出真实世界的运行规则,运用电脑的计算功能模拟社会现象的发展、人类社会的行为及其变化过程(罗卫东、程奇奇,2009)。ABM仿真是计算机模拟的一种方法,同时也是计算社会科学中的一个重要分支。ABM仿真的作用在于通过计算机模拟提取理论并提出可检验、可证伪的假设。它不仅可以对现象提出预测性假设,还可以通过理论解释现象及其成因。
在新闻传播学领域,仿真方法可以提供定量的表达和证明质化思想,可以提供探究微观行为和宏观涌现特征之间内在驱动关系的研究视角,还可以提供对系统性行为与现象的机制性解释和预测(王敏、张子柯,2022)。一些学者纷纷利用仿真技术开展传播学研究,例如利用ABM仿真来研究沉默的螺旋效应(Sohn & Geidner,2016;Ross et al.,2019;王晗啸、张楚惠,2022)、社交媒体监管(Casilli & Tubaro,2012)、过滤气泡假说(Geschke et al.,2019)和两级传播理论(Liu,2007)。
传统方法的仿真模型基于数学推导,而不是计算模拟,对研究者的计算机和数理统计知识提出了较高的要求。操作步骤也比较复杂,包括确定理论模型、设定模型规则参数分布特征和初始值、建立仿真模型和程序、调整参数组合、运行仿真实验、敏感性分析和校准模型等多个步骤。大语言模型的突出贡献在于,更新迭代了传统的ABM仿真技术,使技术门槛大大降低,研究者无须计算机编程就可以轻松进行研究设计,实现“只计算、不编程”。
(二)使用大语言模型开展模拟研究的案例
利用大语言模型进行仿真实验为开展社会科学研究带来了极大便利。麻省理工学院斯隆商学院的Horton(2023)提出在社会科学领域使用大语言模型开展模拟研究。在2024年的一次学术报告会中,他指出大语言模型是一种潜在的代理人,因为它是基于大量的人类数据训练的,研发者把它们设计成类似人类交流的方式进行作答。就像经济学家使用代理“经济人”一样,研究者可以使用大语言模型来模拟代理人,赋予代理人不同的能力、信息和偏好等,然后在具体场景探索他们的行为。根据Horton(2023)的描述,大语言模型模拟与ABM仿真有几个显著区别。首先,在ABM中,研究人员直接编写程序来控制代理的行为,而大语言模型模拟(称为“homo silicus”)则基于大量数据进行训练,不是为特定任务直接编程的,因此能够在不直接控制模型的情况下,根据提示中提供的不同禀赋、信息和偏好模拟出类似人类的反应。其次,ABM的行为是通过显式编程的规则和交互涌现出来的,结果往往是模型特定设置的产物;而大语言模型模拟则从其广泛的预训练数据中生成反应,能够反映更广泛的人类行为和决策启发。最后,通过提示赋予大语言模型不同的信念、政治立场或经验,可以影响其行为,这种灵活性使大语言模型成为探索多种场景和反应的独特工具,不像ABM那样受限于预设的规则。
Horton还在两项研究中使用大语言模型模拟代理重现了经济学的经典实验。第一项研究是收益分配的决策问题(Charness & Rabin,2002)。实验对象被告知扮演角色B,并在两种收入分配中作出选择:第一种分配是A得到300元,B得到600元;第二种分配是A得到700元,B得到500元。这个分配问题涉及效率与公平之间的权衡,如果希望自身收益最大化,应该选择第一种方案(得到600);如果考虑两者综合收益最大化,选择第二种方案更好(得到1200,大于900);如果考虑哪个方案更公平的话,选择第二种方案也更好(差额为200,小于300)。结果显示,代理人的选择与2002年人类参与者的数据相似,都倾向于选择第一种分配方案,且更高版本的模型判断更接近人类。第二项研究探讨市场定价公平性(Kahneman et al.,1986)。Horton设置了一个场景,雨伞平时15美元,雨天涨到20美元,然后通过调整涨价幅度和表达方式,以验证不同模型的情感倾向。研究发现,随着价格上涨,代理人能够对价格公平性作出判断,并表达抗议。
其后,其他利用大语言模型开展模拟的研究也相继出现。哥伦比亚大学的研究者Sreedhar & Chilton(2024)通过经典的经济博弈实验——最后通牒,来比较单一大语言模型结构和多智能体系统的性能。在最后通牒游戏中,提议者必须决定如何分配给定的金额,接收者可以选择接受或拒绝这个分配。研究发现,多智能体系统在模拟人类行为方面的准确率为88%,远高于单一大语言模型的50%。此外,他们还分析了大语言模型在不同人格特质(贪婪与公平)下的表现,发现多智能体系统在创建与人格一致的策略和行动上表现更好。这些结果表明,使用多智能体系统可以更有效地模拟复杂情景中的人类战略推理。
Gürcan(2024)总结了大语言模型与ABM相结合应用于社会模拟的潜力和挑战。他的研究指出,大语言模型在理解和生成人类语言方面取得了显著进展,虽然将其有效集成到社会模拟中仍面临诸多挑战,但通过这种集成,研究人员可以更精细、真实和全面地模拟复杂的系统和人类行为。也就是说,通过大语言模型增强社会代理的角色扮演能力,可以捕捉和模拟社会互动中的复杂动态;而将大语言模型与ABM结合,则为理解复杂社会系统提供了强大的工具。
(三)新闻传播学利用大语言模型进行AMB仿真的思路
虽然上述例子是经济学的研究,新闻传播学领域暂时未发现利用大语言模型进行AMB仿真的研究,但是这些研究设计对开展新闻传播学研究具有较大的启示意义。首先,它意味着大语言模型是具有情景选择和判断能力的,可以代替人进行实验:在第一个例子中,大语言模型可以从两个方案中选择最优方案;在第二个例子中,大语言模型可以模拟人类对某种行为进行价值判断,其打分的原理和新闻传播研究中常用的李克特量表一样。其次,通过改变提示词,研究者可以轻松改变实验场景:第一个例子中,研究者变换了不同分配方案的收益;第二个例子中,研究者变换了涨价区间(16美元、20美元、40美元和100美元)和表达手法(“涨到了”“变成了”)两个变量,实则是一个4×2的分组实验,其研究思路可被用来设计新闻传播学实验。最后,研究者通过变换提示词,能够赋予大语言模型代理人不同的人口统计学属性:第一个例子中,代理人关心不同的收益分配原则(公平原则、效益原则、自我中心原则);第二个例子中,代理人被赋予了6种不同的政治倾向。按照这个思路,进一步延伸到性别、年龄、收入区间等其他变量,就可以模拟出大量的代理人角色。
尽管目前学界对于能否用仿真的代理人替代真人进行实验存在争议,但是可以肯定的是,仿真研究在事前趋势预测和事后重复验证两个方面具备较大的科研价值。一方面,大语言模型用于ABM代理可以帮助研究者通过模拟进行探索研究,寻找新的灵感,以便后续在现实世界中进行测试。例如,大规模问卷调查的成本是非常昂贵的,新闻传播学研究者可以在大规模问卷发放之前,进行仿真实验,对问卷的质量进行评估,同时可以对研究假设的结果进行初步的预判,进而改进研究设计,查漏补缺,避免正式的问卷调查出现严重错误。另一方面,大语言模型用于ABM代理还可以用于复制性研究,验证或者推翻前人既有的研究发现。复制性研究是当前开放科学运动倡导的趋势之一,有助于提升传播学研究的透明性、增强研究结果的可靠性(徐敬宏、张如坤,2020)。上文提到,目前已有学者利用ABM仿真来研究经典的传播学理论(例如沉默的螺旋、两级或多级传播等)在新媒体时代是否适用,有了大语言模型的助力,这一技术门槛将不复存在,研究者通过对话的形式,为大语言模型提供提示词,而无须撰写复杂的代码,大大简化了研究的执行操作。
五、大语言模型应用于新闻传播学研究的方式与利弊
(一)大语言模型在实证研究多环节中的应用方式
针对利用大语言模型分析新闻传播学的数据,本文设计了一套系统化的应用方式,包括五个步骤(如表1所示)。(1)数据预处理:包括从新闻文章、社交媒体帖子和评论中收集文本数据,并进行清洗,去除HTML标签、特殊字符和无关标点符号,进而进行分词与标记化处理,为模型提供清晰的输入。(2)基于提示词的文本分析:核心是利用大语言模型的高级文本理解能力,通过设计引导性强的提示词,使GPT模型对特定文本进行深入分析。此阶段不仅包括提示词的迭代优化,还特别强调利用大语言模型的预测性能进行复杂分析任务。(3)模型微调与应用验证:通过特定领域的数据对大语言模型进行精准微调,增强其在特定文本内容和情感预测上的准确性,并通过专门的评估集进行验证,确保模型输出的实用性与准确性。(4)嵌入式分类:使用大语言模型抽取深层文本嵌入,并利用这些嵌入训练传统机器学习模型,如随机森林(Random Forest)或XGBoost,进行高效的文本分类,突出大语言模型在提供高质量语义理解基础上的优势。(5)语言细节处理:大语言模型的高级理解能力使其能够处理复杂的语言元素,如情感分析、文化背景差异、俚语以及文本中的否定和讽刺等,提供更为精细和深入的语言分析结果。通过运用上述步骤,研究者能够充分利用大语言模型进行新闻传播学数据分析,为主题识别、观点挖掘、舆情监测等任务提供强有力的支持。

(二)利用大语言模型进行实证研究的优点
利用大语言模型进行新闻传播学实证研究有一系列优点:(1)技术门槛低。大语言模型基于对话式的交流,只需要提供合适的提示词,不需要复杂的编程,在一定程度上可以实现真正的“不编程、只计算”,辅助进行实验设计和数据分析。(2)研究成本低。样本大小可以任意选取,瞬间生成大量文本,并且可以尝试多种措辞、提示、回答顺序等,人为创造多样的研究被试、实验材料和情境,可以帮助获得更具代表性的结果。(3)数据分析高效便捷。大语言模型能够自动处理大量文本数据,这些文本数据可以来自不同来源、时间段和主题领域,包括新闻文章、社交媒体帖子和其他信息源。这使得研究人员能够快速、高效地进行数据收集和分析,而不必人工阅读和编码大量文本。(4)拓展功能强大。大语言模型可以帮助研究人员深度挖掘数据背后的内涵;可以帮助研究人员进行文本挖掘和主题建模,以识别新闻报道的关键主题、模式和趋势;可以进行情感分析,帮助研究人员了解新闻报道中的情感极性和情感趋势;可以用于事件检测,以追踪特定事件或话题的报道;可以用于分析新闻报道的时间序列数据,以识别事件的演化和趋势。大语言模型不仅能够识别关键词和主题,还能够理解文本的上下文和含义,有助于更深入地探索新闻报道的内涵。(5)相比传统的真人实验,在进行ABM仿真实验和生成文本的时候,不会存在与人类受试者相关的伦理问题。此外,AI不会“记得”曾经看到的提示,相比之下,在真实的实验中,多次呈现相同场景的受试者可能会明白操纵的本质,并改变结果。虽然大语言模型不能完全替代真人实验,但是在事前预测和事后验证两个层面,研究潜力较大。
(三)利用大语言模型进行实证研究的弊端
使用大语言模型辅助新闻传播学研究也存在一些弊端,包括以下几点:(1)歧视、偏见和数据代表性问题。目前大语言模型生成数据的代表性仍然存在争议,大语言模型是基于互联网上的文本数据训练的,这些数据本身可能存在偏差(Kroon et al.,2024)。因此,使用这些模型进行社会科学研究可能会改变乃至扭曲研究结果,特别是当研究关于文化、性别、种族等敏感话题时,研究者对于样本的代表性问题应该保持审慎态度。(2)数据隐私和伦理问题。访问和使用大规模文本数据可能涉及隐私和伦理问题。例如,如果模型的训练数据包含个人敏感信息,那么在使用这些数据进行研究时可能会涉及数据隐私保护和伦理问题。(3)缺乏解释力。大语言模型通常是“黑匣子”,只能根据输入的上下文生成文本,但无法解释其内部的工作原理和决策过程。这可能导致社会科学研究的结果难以解释和理解,使用户难以信任和使用这些模型。(4)难以捕捉行为和意图。大语言模型虽然能够处理大量的文本数据,例如前文所述的文本分析,但并不能直接捕捉到人类的行为和意图。这使得大语言模型在处理某些复杂的社会科学问题时可能存在局限性。(5)难以适应文化和语境。大语言模型通常是在特定的文化和语境下训练的,例如国外的ChatGPT和国内的文心一言,在处理不同文化和语境的问题时可能难以适应,这可能会影响模型的可靠性和普适性(程萧潇、吴栎骞,2024)。
总之,大语言模型在新闻传播学实证研究中具有较大的潜力和价值:可以提供更强大的工具和方法,有助于研究更广泛的主题,提高研究效率,同时也可以带来新的研究机会和领域。目前国内深度求索的DeepSeek、百度的文心一言、智谱华章的智谱清言已经上线,面向个人用户免费使用,并且支持文本、图片等多模态,为国内学者开展研究提供了极大便利。同时,鉴于大语言模型存在的缺点和弊端,新闻传播学研究人员也应谨慎使用这些模型,有关机构也应积极规范,以确保大语言模型在新闻传播学实证研究中符合道德和伦理标准。
本文参考文献从略,完整版请参看刊物原文
本文引文格式:徐敬宏、郭迪帆:《大语言模型在新闻传播学研究中的应用——以数据生成、分析、模拟为例》,全球传媒学刊,2025年第2期,3-20页。