原文刊載於《全球傳媒學刊》2025年第2期「智能傳播」專欄
作
者
徐敬宏:北京師範大學新聞傳播學院教授。
郭迪帆(通信作者):北京師範大學新聞傳播學院博士研究生。
概
要
【摘 要】大語言模型不僅對新聞行業產生了深遠的影響,同時也為新聞傳播學界提供了強有力的科學研究工具。本文主要基於英語學術界的相關實證研究,探索如何有效利用相關模型開展新聞傳播學的實證研究。通過數據生成、數據分析和數據模擬三大途徑,大語言模型不僅可以與實驗法和內容分析法相結合,輔助研究設計,更能夠降低文本分析的技術難度,推動仿真研究的創新。此外,本文在案例介紹的基礎上,提供了宏觀的方法指南,旨在幫助新聞傳播學研究者拓展研究思路,實現「只計算、不編程」的願景。
【關鍵詞】大語言模型;ABM仿真;人機傳播;文本分析
一、引言
近年來,大語言模型(Large Language Models,LLMs)及其典型代表——生成預訓練轉換器(Generative Pre-trained Transformer,GPT)成為社會科學研究的熱門話題。大語言模型是一種基於深度學習技術的人工智能模型,用於處理和生成自然語言文本。這些模型能夠理解和生成文本,並可完成文章修改、對話、翻譯等自然語言處理任務。當前業界熱門的ChatGPT和DeepSeek均屬於大語言模型的典型代表。其中GPT系列模型由OpenAI開發,而DeepSeek則由深度求索公司研發。它們均基於預訓練與微調技術,能夠高效執行各類自然語言處理任務。本文的大語言模型,泛指國內外基於大量數據來訓練和開發的各類深度學習模型,而不僅僅局限於ChatGPT或DeepSeek。
大語言模型強大的內容生成和分析能力對新聞業產生了深刻的影響。目前有很多學者討論大語言模型對新聞內容生產(曾曉,2023;鄭滿寧,2023)、新聞業媒介環境(何向向,2023;馬曉荔,2023)、新聞記者的角色定位(張建中、坎貝爾,2023)、新聞傳播教育(張波,2023)等的影響。2023年5月14日,由北京師範大學新聞傳播學院主辦的「ChatGPT啟示會」在京舉辦。與會專家圍繞大語言模型下的信息生產與流通、倫理法規、文化三個領域的問題進行研討,提出了66個傳播學研究的新問題,包括六個研究方向:大語言模型的技術與應用、大語言模型的倫理和法規、大語言模型的社會影響、大語言模型的教育和學科發展、人機交互、大語言模型的技術接受和認知差異(張爾坤、張一瀟,2023)。然而,目前國內的研究主要集中在前四個領域,而且絕大多數是思辨研究,很少實證探索人機交互、大語言模型的技術接受和認知差異等議題。
工欲善其事,必先利其器。值得指出的是,大語言模型本身也可以作為一種強大的社會科學研究工具。為此,本文採用循證的系統文獻綜述的方法(Denyer & Tranfield,2009),對目前西方前沿的大語言模型實證研究進行綜述,介紹如何將大語言模型作為一種科研工具,開展相關的新聞傳播學實證研究,具體包括以下五個步驟:(1)通過試點研究確定研究問題,即大語言模型在新聞傳播學中的應用。(2)對研究進行定位,首先在Web of Science數據庫進行檢索,使用的關鍵詞包括Large Language Model(LLM)和Generative AI(GAI),得到初步的檢索結果1478條。(3)對相關文獻進行選擇與評估,重點關注2024年6月20日科睿唯安發佈的新聞傳播學新版JCR目錄(含ESCI)中的期刊,限定發表時間為2023年及以後,剔除與主題不相關的論文後,共得到符合條件的論文39篇,來自Digital Journalism、Communication Methods and Measures、New Media & Society等期刊。(4)在重點閱讀這39篇文獻的基礎上,本文發現大語言模型對新聞傳播學研究的影響可以沿着數據生成、數據分析和數據模擬的思路進行歸納和匯總,隨後利用EBSCO、GoogleScholar等數據庫進行二次文獻收集,補充社會科學領域的其他關鍵研究,因為這些研究採用的通用技術對新聞傳播學同樣具有重要意義。(5)在分析與綜合階段,討論如何將大語言模型與實驗法、內容分析法、文本分析、仿真等研究方法結合起來開展研究設計,具體可參見下文的數據生成、分析、模擬三大板塊的論述。本文採取的系統文獻綜述的方法在一定程度上克服了敘述性綜述(Tranfield et al.,2003)或專家臨時選取文獻的綜述(Kitchenham et al.,2009)的不足,有助於深入挖掘與本文有關的文獻,幫助新聞傳播學研究者開闊研究思路、提高科研效率,同時為豐富大語言模型領域的實證研究貢獻新聞傳播學的力量。
二、數據生成:大語言模型輔助研究設計
(一)大語言模型的數據增強方法
大語言模型的數據增強方法是指其根據給定的文本或主題,能夠預測或生成新的、相似的文本或段落的能力。這種能力基於語言模型對大量文本數據的統計學習和語言規則的理解,使其模擬人類的語言表達方式,生成較高質量的新文本。大語言模型的數據增強方法主要體現在文本擴寫、文本續寫、主題生成以及情境對話等方面。Omizo & Hart-Davidson(2024)發現,當大語言模型生成的文本以預期的頻率和強度包含特定體裁信號時,這些文本就可以被視為準確的、可靠的和值得信賴的內容。
大語言模型的數據增強方法對於開展社會科學研究具有重要意義,可以為科研人員提供更高效的研究方法。一方面,大語言模型能夠模擬人類的語言和思維,用戶可以通過與大語言模型對話互動,從而獲得新的知識和洞見;另一方面,研究人員也可以在不依賴真人參與的情況下,利用大語言模型合成文本數據,進行自動化研究、智能輔助研究等,擴大研究範圍,提高研究的靈活性和深度。在新聞傳播學的實證研究上,大語言模型可以與實驗法以及內容分析法等研究方法相結合,進一步完善研究設計、擴大研究範圍、提升研究效果。與實驗法結合時,大語言模型可以參與實驗被試的互動環節,半自動生成文本,進而幫助研究者測量人機互動的傳播效果;與內容分析法結合時,大語言模型可以輔助研究數據生成,全自動合成文本,為研究者提供多樣化的數據來源。
除此之外,一些大語言模型還有強大的圖像(視頻可以看作多幀的圖像)生成能力。大語言模型的圖像生成能力是指其根據給定的文本描述或主題,生成與之相對應的圖像的能力。這種能力基於模型對大量圖像數據和相應文本描述的學習,使其能夠理解和生成符合描述的高質量圖像。大語言模型的圖像生成能力主要體現在圖片生成、圖像編輯、圖像風格轉換和圖像補全等方面。有研究表明,藉助大語言模型和多模態渠道可以將自動化視覺分析應用在社交媒體影響研究中,彌合現有計算機視覺工具的輸出與媒體效果研究相關理論概念之間的差距(Peng et al.,2024)。
大語言模型的圖像生成能力可以為科研人員提供更多元的研究方法和更豐富的數據來源。在視覺分析方面,大語言模型可以生成符合特定主題的圖像,幫助研究人員分析和理解視覺傳播的效果,在研究某一新聞事件的視覺傳播效果時,研究人員可以使用大語言模型生成相關的新聞圖片,分析不同視覺元素對受眾的影響。例如,有研究者利用大語言模型的文生圖功能,分析了在六個月內由AI(Midjourney)生成的84張圖像,來回答「誰是記者」「記者的形象如何」這些問題,揭示了人工智能對記者形象的理解(Thomas & Thomson,2023)。再者,新聞圖片在新聞報道中起到至關重要的作用,它們不僅傳遞信息,還能夠吸引受眾的注意力並增強信息的傳播效果。大語言模型可以根據新聞報道的內容自動生成相關圖片,這不僅提高了新聞製作的效率,還能夠為讀者提供更加豐富和更為直觀的信息。此外,大語言模型還可以對已有的新聞圖片進行編輯和修復,同時確保圖片的質量和一致性。
如今,用戶通過PC和手機終端可以隨時隨地訪問大語言模型的應用。隨着大語言模型的成熟,更加流暢的語音交互和更加成熟的視頻生成功能也有望在各類移動終端實現。
(二)大語言模型與實驗法相結合測量人機傳播效果
人機傳播正在成為一種新的傳播形態:廣義上,機器參與的各種能達及人的智能傳播活動都可以算作人機傳播;狹義上,人機傳播指的是同為傳播主體的人與機器之間的直接互動(彭蘭,2022)。有學者指出,用戶與大語言模型的對話互動的本質是一場人機傳播(姜澤瑋,2023)。大語言模型這種人機傳播的互動模式有何新特點?大語言模型參與的人機互動是否會影響用戶的認知和態度?這一系列問題有待通過新聞傳播學的實證研究進一步探索。
目前,西方學者已經開展了一些與大語言模型有關的人機傳播實證研究。例如,Jakesch等(2023)的一項研究,在線招募了1506名參與者並隨機劃分為3個組別。所有參與者都被要求撰寫一篇文章來討論社交媒體是否對社會發展有益。第一組參與者需獨立進行寫作;第二組參與者在帶有「社交媒體有助於社會發展」觀點的大語言模型工具的輔助下進行寫作;第三組參與者在帶有「社交媒體不利於社會發展」觀點的大語言模型工具的輔助下進行寫作。然後,全部參與者都被要求填寫一份關於社交媒體態度的問卷,並邀請獨立評委評估他們在寫作中表達的觀點。研究發現,與具有明確觀點的語言模型進行互動式寫作可以引導參與者的思考,使他們的觀點更趨近於該語言模型的立場。
Kadoma等(2024)調查了與大語言模型共同寫作如何影響與用戶福祉相關的三個指標:融入感、控制感和主人翁感。在一項在線情景實驗中,參與者被要求使用大語言模型提供的兩種風格(自信的或者猶豫的),向領導寫信提出職位晉陞的請求。研究結果表明,雖然大語言模型的風格選擇並未改變參與者的融入感,但確實影響了他們的控制感和主人翁感。相比使用自信風格的大語言模型,使用猶豫風格的大語言模型進行寫作的參與者表現出更強的控制感,最終成文也似乎更貼近其寫作風格。
(三)大語言模型與內容分析法相結合進行交叉驗證
對於研究者來說,用戶數據在某些情況下可能是稀缺的,因此常常會阻礙研究的進展。大語言模型可以用來模擬生成文本,幫助研究者豐富數據來源。這種合成的數據不僅可以用來訓練文本分類器,而且可以與真實數據進行交叉驗證,幫助新聞傳播學研究者利用內容分析法來進行編碼和框架識別。
首先,通過大語言模型合成數據,可以訓練文本分類器。Meyer等(2022)的研究指出,在生成數據方面,隨着預訓練語言模型的不斷改進,其生成數據的能力已經超越了傳統的數據增強技術。他們對合成的數據與真實的用戶數據進行比較,並評估了在合成數據和真實數據的不同組合上訓練的分類器的性能。他們發現,雖然分類器在合成數據上的效果不如真實數據,但是在可用數據和資源非常少的情況下,合成數據的分類器可能比自然數據的收集和注釋更為可取。
其次,除了訓練分類器以外,大語言模型的合成數據還可以與傳統內容分析法進行交叉驗證。框架理論是經典的新聞傳播學理論,也是內容分析法常常援引的理論之一。Luo等(2023)將大語言模型應用於模擬生成文本,研究非西方移民餐廳的污名化現象。通過文本分析,他們對美國14個州的210萬條英文餐館評論的框架差異進行探討,並評估了有關移民餐廳態度的社會理論。他們的研究數據來自「美國版大眾點評」Yelp平台上的公開數據集,研究亮點在於他們藉助大語言模型額外合成了7600條模擬評論,並與Yelp的真實評論進行對比。研究發現,大語言模型生成的評論再現了許多與真實評論相同的框架傾向。該合成評論的具體方法是給ChatGPT不同的提問,變換字段變量,例如情感(是積極還是消極)、不同價格區間(<10美元;10~25美元;25~50美元;≥50美元)、食物種類(美餐、中餐、墨西哥菜、意大利菜等),以及評價的關注點(菜品、飲料、環境等)。例如,研究者可以給大語言模型以下提示詞:請模仿顧客對以下餐廳進行非常積極的點評,這家餐廳人均消費25~45美元,主要經營日本料理,評論的重點放在裝修環境上。這樣一來,研究者就可以得到模擬的評論,再與用戶真實的評論進行對比,從而對內容分析的結果進行交叉驗證。
三、數據分析:大語言模型降低編碼門檻
(一)傳統的文本數據分析
文本分析是一種對文本數據進行自動或半自動處理的方法,主要包括詞頻分析、主題分析、情感分析以及語義分析等。詞頻分析是最基礎的分析,是指對文本中某個單詞出現的頻率進行計算,例如統計B站上某UP主視頻彈幕中出現的高頻詞彙。主題分析和情感分析相對詞頻分析更進一步:主題分析是指對文本進行主題挖掘,識別文本中隱藏的主題,例如從多篇新聞文本數據中分析出主要的新聞話題;情感分析是指提取和分析文本中的情感偏向,例如對小紅書的評論進行情感分析。語義分析涉及對文本中的語言內容進行分析,通過語義分析可以深入理解文本的內涵,例如對某個訪談片段進行語義分析。
傳統的計算機輔助文本分析涉及很多數學和統計知識,使用門檻較高。進行詞頻分析時,相關分析往往藉助Python等編程語言先對文本素材進行分詞預處理(清洗、分詞、去除停用詞以及轉換為小寫等),再對分離出來的詞語進行詞頻統計,最後依據頻率進行排序和結果輸出。開展主題分析時,潛在狄利克雷分配(Latent Dirichlet allocation,LDA)主題模型是最常見的分類方法之一,可以將文本數據轉換成主題空間的向量表示。在對文本進行預處理的基礎上,依次進行LDA主題模型構建、主題識別和主題解釋。進行情感分析時,情感分析大致可分為篇章級、句子級、詞語級三個層次,其中最基礎的任務是信息抽取,常用的分析方法有基於情感詞典的方法、基於傳統機器學習的方法和基於深度學習的方法,通常使用情感分析模型(例如VADER),以及Python中的NLTK庫。語義分析是文本分析中最具挑戰性的數據分析之一,包括文本相似度分析、命名實體識別以及詞義消歧等。開展語義分析時,文本數據需要經歷文本預處理、語法分析、語義分析和知識表示等幾個階段,才能得到分析的結果。
(二)利用大語言模型進行文本數據分析的方法
大語言模型大大降低了文本數據分析的技術門檻。傳統的藉助計算機的文本數據分析或多或少需要編碼和調試,無論是初級的詞頻分析,還是高階的情感分析、主題分析和語義分析等,都要求研究者具備一定的計算機水平。相比之下,大語言模型支持通過對話的形式,對輸入的文本進行自動分析,而無須關心運算過程。目前,主流的大語言模型產品都已經具備基礎的文本分析功能。
以百度文心一言為例,它嵌入了「分詞」「詞頻統計」「情感分析」「主題分類」和「語義角色標註」等功能,研究者只需要導入想要分析的文本數據,然後告訴文心一言擬使用的功能,就可以進行分析,全程不需要編碼,只需要用文字描述任務需求。例如,進行詞頻分析時,研究者告訴文心一言首先調用「分詞」功能對文本進行分詞,再調用「詞頻統計」功能對分詞後的文本進行詞頻統計,最後觀察高頻詞彙,了解文本中出現的詞彙及其出現頻率。進行情感分析時,研究者只需要選擇要分析的情感類型,如積極、消極或中立,就可以查看情感分析結果,了解文本整體情感傾向。進行主題分析時,研究者只需要告訴文心一言需要分析的主題類別,如科技、娛樂、教育,便可以查看主題分類結果,了解文本討論的主題。文心一言支持的語義分析功能包括歸納文本主旨、實體識別、語義匹配和相似語義文本生成等,進行語義分析時,研究者只需要告訴文心一言需要的功能即可。關於單次文本輸入上限,目前文心一言為1024字,GPT4為2048tokens,訊飛星火約5500字,Bard約9850字符,New Bing為4000字符。除了GPT4限制每三個小時25條對話和New Bing限制每次聊天僅20次對話之外,其餘模型均無限制。因此,就10萬字以內的文本分析而言,基於聊天框對話的輸入形式對於研究者來說相對輕鬆,一般無須調用後台應用程序編程接口(Application Programming Interface,API)。
相比之下,智譜清言支持更強大的文本數據批量分析。智譜清言為用戶提供了智譜清言庫,並提供具體的函數供具備基礎編程知識的研究者進行調用:例如使用「get_word_counts函數」計算文本中每個單詞的詞頻、「Analyzer.sentiment_analysis函數」計算文本的情感極性、「Analyzer.theme_analysis函數」計算文本的主題、「Analyzer.semantic_analysis函數」計算文本的語義。當用戶詢問智譜清言如何進行某一分析的時候,智譜清言就會把相關的代碼生成出來,供用戶直接複製粘貼使用。對於體量更大的文本數據分析,例如百萬、千萬級別的文字,研究者需要藉助大語言模型的API來實現。目前大部分商業公司的API需要付費調用,僅有阿里的通義千問等為數不多的大語言模型是開源的。對於一般的新聞傳播學研究而言,免費的大語言模型就可以滿足大部分研究者的需求;對於大型的研究而言,可能還是需要團隊的合作和API的調用。
國外的大語言模型,例如OpenAI的ChatGPT、微軟的Copilot的用戶可視化界面,與國內的大語言模型基本相同,其交互方式也類似。對於具備一定計算機編程能力的研究者,GPT的API接口可以幫助他們實現功能更複雜、數據體積更大的運算。例如,Kheiri & Karimi(2023)運用大語言模型GPT來對社交媒體上的文本進行情感分析。該研究採用了三種主要策略:(1)使用GPT-3.5Turbo進行提詞工程;(2)對GPT模型進行微調;(3)創新性地進行嵌入分類。結果表明,GPT方法在預測性能方面表現出顯著的優越性,F1評分比最先進的機器學習模型高出22%以上。這項研究還發現,GPT模型在處理諸如理解上下文和檢測諷刺表達等複雜問題方面表現出色,這表明GPT大語言模型在情感分析中具有巨大的潛力。
(三)利用大語言模型進行新聞或社交媒體文本數據分析
大語言模型可以成為新聞傳播學研究者得力的數據分析工具。研究者可以使用大語言模型來分析社交媒體帖子、新聞文章、政府文件或訪談記錄等文本,以探討不同話題和事件的情感偏向。大語言模型能高效完成傳統計算機輔助分析的任務,以B站彈幕數據為例,對這些數據進行詞頻分析,可以找出評論中出現最多的單詞或詞組,從而找出關鍵詞,了解B站用戶關心的核心信息;對這些彈幕進行主題分析,可以幫助我們發現評論的關注點和熱門話題;對彈幕數據進行情感分析,可以了解B站用戶的情感傾向,包括情感極性(負面、中性、正面等)和情感強度(較強、一般、較弱等)等;對彈幕數據進行語義分析,可以洞察用戶深層次的情感交流和語義網絡。
此外,大語言模型在新聞或社交媒體文本數據分析中的應用不止於傳統的數據處理任務。例如,Feng等(2024)的研究探討了大語言模型在社交媒體機械人檢測中的機會和風險。該研究設計了一種基於大語言模型的機械人檢測器,採用異質專家混合框架來處理多種用戶信息,從而提升檢測效果。通過在兩個數據集上的廣泛實驗,他們發現,僅用1000個注釋樣本進行指令調優後,大語言模型能夠比現有的最先進方法提升高達9.1%的檢測準確率。然而,該研究也揭示了大語言模型在對抗檢測策略中的風險,即通過大語言模型引導的文本和結構信息操控,現有的機械人檢測系統的性能可能顯著下降,下降幅度高達29.6%,從而影響系統的校準和可靠性。這表明,儘管大語言模型在文本分析方面展現了巨大的潛力,但也伴隨着一些挑戰。大語言模型在新聞和社交媒體文本分析中的應用,在提供了新的研究工具的同時,也提醒我們需要警惕其潛在的風險和局限性。
未來,隨着大語言模型的進步,文本數據分析的功能將變得更加強大。一方面,上述四種傳統的數據分析方法會變得更加精準、細化:(1)大語言模型有望對輸出的結果進行可視化圖表展示,並配以文字描述;(2)主題分析得到的主題數量可以根據提示詞的不同進行個性化定製,允許用戶指定或者微調;(3)情感分析進一步細化情感維度,像傳統的情感分析一樣,給研究者返回一個具體的情感數值,以幫助研究者進行更加精確的情感分析和不同文本的情感對比;(4)語義分析的角度更加多維,在結果呈現上,採用更加學術化的表達進行輸出。另一方面,大語言模型或許將開發更加強大和穩健的文本分析功能:(1)社交網絡分析:使用ChatGPT來分析社交網絡數據,以揭示社交網絡結構、關係和網絡中的信息傳播模式,這可以幫助新聞傳播學研究者探索社交網絡對信息傳播的影響。(2)社交媒體情境分析:利用大語言模型對社交媒體上的文本進行上下文分析,以理解信息傳播的背景和情境,包括時間、地點和涉及的用戶。(3)多媒體內容分析:除了文本,還可以使用大語言模型來分析關聯的圖像、視頻和音頻內容的傳播,而不是將文本和其他媒體形態等進行割裂的單獨分析,例如小紅書上的帖子一般具有圖文等多種媒體形態,這有助於研究不同媒體形式的信息傳播。(4)跨文化研究:利用大語言模型進行多語言分析,研究不同文化和社會背景下的信息傳播模式和趨勢,幫助跨文化傳播和國際傳播領域的研究者減少語言障礙。
四、數據模擬:大語言模型革新仿真研究
(一)傳統的仿真方法
代理人基模型(Agent-Based Modeling,ABM)仿真是對真實世界的模擬,它通過抽象出真實世界的運行規則,運用電腦的計算功能模擬社會現象的發展、人類社會的行為及其變化過程(羅衛東、程奇奇,2009)。ABM仿真是計算機模擬的一種方法,同時也是計算社會科學中的一個重要分支。ABM仿真的作用在於通過計算機模擬提取理論並提出可檢驗、可證偽的假設。它不僅可以對現象提出預測性假設,還可以通過理論解釋現象及其成因。
在新聞傳播學領域,仿真方法可以提供定量的表達和證明質化思想,可以提供探究微觀行為和宏觀湧現特徵之間內在驅動關係的研究視角,還可以提供對系統性行為與現象的機制性解釋和預測(王敏、張子柯,2022)。一些學者紛紛利用仿真技術開展傳播學研究,例如利用ABM仿真來研究沉默的螺旋效應(Sohn & Geidner,2016;Ross et al.,2019;王晗嘯、張楚惠,2022)、社交媒體監管(Casilli & Tubaro,2012)、過濾氣泡假說(Geschke et al.,2019)和兩級傳播理論(Liu,2007)。
傳統方法的仿真模型基於數學推導,而不是計算模擬,對研究者的計算機和數理統計知識提出了較高的要求。操作步驟也比較複雜,包括確定理論模型、設定模型規則參數分佈特徵和初始值、建立仿真模型和程序、調整參數組合、運行仿真實驗、敏感性分析和校準模型等多個步驟。大語言模型的突出貢獻在於,更新迭代了傳統的ABM仿真技術,使技術門檻大大降低,研究者無須計算機編程就可以輕鬆進行研究設計,實現「只計算、不編程」。
(二)使用大語言模型開展模擬研究的案例
利用大語言模型進行仿真實驗為開展社會科學研究帶來了極大便利。麻省理工學院斯隆商學院的Horton(2023)提出在社會科學領域使用大語言模型開展模擬研究。在2024年的一次學術報告會中,他指出大語言模型是一種潛在的代理人,因為它是基於大量的人類數據訓練的,研發者把它們設計成類似人類交流的方式進行作答。就像經濟學家使用代理「經濟人」一樣,研究者可以使用大語言模型來模擬代理人,賦予代理人不同的能力、信息和偏好等,然後在具體場景探索他們的行為。根據Horton(2023)的描述,大語言模型模擬與ABM仿真有幾個顯著區別。首先,在ABM中,研究人員直接編寫程序來控制代理的行為,而大語言模型模擬(稱為「homo silicus」)則基於大量數據進行訓練,不是為特定任務直接編程的,因此能夠在不直接控制模型的情況下,根據提示中提供的不同稟賦、信息和偏好模擬出類似人類的反應。其次,ABM的行為是通過顯式編程的規則和交互湧現出來的,結果往往是模型特定設置的產物;而大語言模型模擬則從其廣泛的預訓練數據中生成反應,能夠反映更廣泛的人類行為和決策啟發。最後,通過提示賦予大語言模型不同的信念、政治立場或經驗,可以影響其行為,這種靈活性使大語言模型成為探索多種場景和反應的獨特工具,不像ABM那樣受限於預設的規則。
Horton還在兩項研究中使用大語言模型模擬代理重現了經濟學的經典實驗。第一項研究是收益分配的決策問題(Charness & Rabin,2002)。實驗對象被告知扮演角色B,並在兩種收入分配中作出選擇:第一種分配是A得到300元,B得到600元;第二種分配是A得到700元,B得到500元。這個分配問題涉及效率與公平之間的權衡,如果希望自身收益最大化,應該選擇第一種方案(得到600);如果考慮兩者綜合收益最大化,選擇第二種方案更好(得到1200,大於900);如果考慮哪個方案更公平的話,選擇第二種方案也更好(差額為200,小於300)。結果顯示,代理人的選擇與2002年人類參與者的數據相似,都傾向於選擇第一種分配方案,且更高版本的模型判斷更接近人類。第二項研究探討市場定價公平性(Kahneman et al.,1986)。Horton設置了一個場景,雨傘平時15美元,雨天漲到20美元,然後通過調整漲價幅度和表達方式,以驗證不同模型的情感傾向。研究發現,隨着價格上漲,代理人能夠對價格公平性作出判斷,並表達抗議。
其後,其他利用大語言模型開展模擬的研究也相繼出現。哥倫比亞大學的研究者Sreedhar & Chilton(2024)通過經典的經濟博弈實驗——最後通牒,來比較單一大語言模型結構和多智能體系統的性能。在最後通牒遊戲中,提議者必須決定如何分配給定的金額,接收者可以選擇接受或拒絕這個分配。研究發現,多智能體系統在模擬人類行為方面的準確率為88%,遠高於單一大語言模型的50%。此外,他們還分析了大語言模型在不同人格特質(貪婪與公平)下的表現,發現多智能體系統在創建與人格一致的策略和行動上表現更好。這些結果表明,使用多智能體系統可以更有效地模擬複雜情景中的人類戰略推理。
Gürcan(2024)總結了大語言模型與ABM相結合應用於社會模擬的潛力和挑戰。他的研究指出,大語言模型在理解和生成人類語言方面取得了顯著進展,雖然將其有效集成到社會模擬中仍面臨諸多挑戰,但通過這種集成,研究人員可以更精細、真實和全面地模擬複雜的系統和人類行為。也就是說,通過大語言模型增強社會代理的角色扮演能力,可以捕捉和模擬社會互動中的複雜動態;而將大語言模型與ABM結合,則為理解複雜社會系統提供了強大的工具。
(三)新聞傳播學利用大語言模型進行AMB仿真的思路
雖然上述例子是經濟學的研究,新聞傳播學領域暫時未發現利用大語言模型進行AMB仿真的研究,但是這些研究設計對開展新聞傳播學研究具有較大的啟示意義。首先,它意味着大語言模型是具有情景選擇和判斷能力的,可以代替人進行實驗:在第一個例子中,大語言模型可以從兩個方案中選擇最優方案;在第二個例子中,大語言模型可以模擬人類對某種行為進行價值判斷,其打分的原理和新聞傳播研究中常用的李克特量表一樣。其次,通過改變提示詞,研究者可以輕鬆改變實驗場景:第一個例子中,研究者變換了不同分配方案的收益;第二個例子中,研究者變換了漲價區間(16美元、20美元、40美元和100美元)和表達手法(「漲到了」「變成了」)兩個變量,實則是一個4×2的分組實驗,其研究思路可被用來設計新聞傳播學實驗。最後,研究者通過變換提示詞,能夠賦予大語言模型代理人不同的人口統計學屬性:第一個例子中,代理人關心不同的收益分配原則(公平原則、效益原則、自我中心原則);第二個例子中,代理人被賦予了6種不同的政治傾向。按照這個思路,進一步延伸到性別、年齡、收入區間等其他變量,就可以模擬出大量的代理人角色。
儘管目前學界對於能否用仿真的代理人替代真人進行實驗存在爭議,但是可以肯定的是,仿真研究在事前趨勢預測和事後重複驗證兩個方面具備較大的科研價值。一方面,大語言模型用於ABM代理可以幫助研究者通過模擬進行探索研究,尋找新的靈感,以便後續在現實世界中進行測試。例如,大規模問卷調查的成本是非常昂貴的,新聞傳播學研究者可以在大規模問捲髮放之前,進行仿真實驗,對問卷的質量進行評估,同時可以對研究假設的結果進行初步的預判,進而改進研究設計,查漏補缺,避免正式的問卷調查出現嚴重錯誤。另一方面,大語言模型用於ABM代理還可以用於複製性研究,驗證或者推翻前人既有的研究發現。複製性研究是當前開放科學運動倡導的趨勢之一,有助於提升傳播學研究的透明性、增強研究結果的可靠性(徐敬宏、張如坤,2020)。上文提到,目前已有學者利用ABM仿真來研究經典的傳播學理論(例如沉默的螺旋、兩級或多級傳播等)在新媒體時代是否適用,有了大語言模型的助力,這一技術門檻將不復存在,研究者通過對話的形式,為大語言模型提供提示詞,而無須撰寫複雜的代碼,大大簡化了研究的執行操作。
五、大語言模型應用於新聞傳播學研究的方式與利弊
(一)大語言模型在實證研究多環節中的應用方式
針對利用大語言模型分析新聞傳播學的數據,本文設計了一套系統化的應用方式,包括五個步驟(如表1所示)。(1)數據預處理:包括從新聞文章、社交媒體帖子和評論中收集文本數據,並進行清洗,去除HTML標籤、特殊字符和無關標點符號,進而進行分詞與標記化處理,為模型提供清晰的輸入。(2)基於提示詞的文本分析:核心是利用大語言模型的高級文本理解能力,通過設計引導性強的提示詞,使GPT模型對特定文本進行深入分析。此階段不僅包括提示詞的迭代優化,還特彆強調利用大語言模型的預測性能進行複雜分析任務。(3)模型微調與應用驗證:通過特定領域的數據對大語言模型進行精準微調,增強其在特定文本內容和情感預測上的準確性,並通過專門的評估集進行驗證,確保模型輸出的實用性與準確性。(4)嵌入式分類:使用大語言模型抽取深層文本嵌入,並利用這些嵌入訓練傳統機器學習模型,如隨機森林(Random Forest)或XGBoost,進行高效的文本分類,突出大語言模型在提供高質量語義理解基礎上的優勢。(5)語言細節處理:大語言模型的高級理解能力使其能夠處理複雜的語言元素,如情感分析、文化背景差異、俚語以及文本中的否定和諷刺等,提供更為精細和深入的語言分析結果。通過運用上述步驟,研究者能夠充分利用大語言模型進行新聞傳播學數據分析,為主題識別、觀點挖掘、輿情監測等任務提供強有力的支持。

(二)利用大語言模型進行實證研究的優點
利用大語言模型進行新聞傳播學實證研究有一系列優點:(1)技術門檻低。大語言模型基於對話式的交流,只需要提供合適的提示詞,不需要複雜的編程,在一定程度上可以實現真正的「不編程、只計算」,輔助進行實驗設計和數據分析。(2)研究成本低。樣本大小可以任意選取,瞬間生成大量文本,並且可以嘗試多種措辭、提示、回答順序等,人為創造多樣的研究被試、實驗材料和情境,可以幫助獲得更具代表性的結果。(3)數據分析高效便捷。大語言模型能夠自動處理大量文本數據,這些文本數據可以來自不同來源、時間段和主題領域,包括新聞文章、社交媒體帖子和其他信息源。這使得研究人員能夠快速、高效地進行數據收集和分析,而不必人工閱讀和編碼大量文本。(4)拓展功能強大。大語言模型可以幫助研究人員深度挖掘數據背後的內涵;可以幫助研究人員進行文本挖掘和主題建模,以識別新聞報道的關鍵主題、模式和趨勢;可以進行情感分析,幫助研究人員了解新聞報道中的情感極性和情感趨勢;可以用於事件檢測,以追蹤特定事件或話題的報道;可以用於分析新聞報道的時間序列數據,以識別事件的演化和趨勢。大語言模型不僅能夠識別關鍵詞和主題,還能夠理解文本的上下文和含義,有助於更深入地探索新聞報道的內涵。(5)相比傳統的真人實驗,在進行ABM仿真實驗和生成文本的時候,不會存在與人類受試者相關的倫理問題。此外,AI不會「記得」曾經看到的提示,相比之下,在真實的實驗中,多次呈現相同場景的受試者可能會明白操縱的本質,並改變結果。雖然大語言模型不能完全替代真人實驗,但是在事前預測和事後驗證兩個層面,研究潛力較大。
(三)利用大語言模型進行實證研究的弊端
使用大語言模型輔助新聞傳播學研究也存在一些弊端,包括以下幾點:(1)歧視、偏見和數據代表性問題。目前大語言模型生成數據的代表性仍然存在爭議,大語言模型是基於互聯網上的文本數據訓練的,這些數據本身可能存在偏差(Kroon et al.,2024)。因此,使用這些模型進行社會科學研究可能會改變乃至扭曲研究結果,特別是當研究關於文化、性別、種族等敏感話題時,研究者對於樣本的代表性問題應該保持審慎態度。(2)數據隱私和倫理問題。訪問和使用大規模文本數據可能涉及隱私和倫理問題。例如,如果模型的訓練數據包含個人敏感信息,那麼在使用這些數據進行研究時可能會涉及數據隱私保護和倫理問題。(3)缺乏解釋力。大語言模型通常是「黑匣子」,只能根據輸入的上下文生成文本,但無法解釋其內部的工作原理和決策過程。這可能導致社會科學研究的結果難以解釋和理解,使用戶難以信任和使用這些模型。(4)難以捕捉行為和意圖。大語言模型雖然能夠處理大量的文本數據,例如前文所述的文本分析,但並不能直接捕捉到人類的行為和意圖。這使得大語言模型在處理某些複雜的社會科學問題時可能存在局限性。(5)難以適應文化和語境。大語言模型通常是在特定的文化和語境下訓練的,例如國外的ChatGPT和國內的文心一言,在處理不同文化和語境的問題時可能難以適應,這可能會影響模型的可靠性和普適性(程蕭瀟、吳櫟騫,2024)。
總之,大語言模型在新聞傳播學實證研究中具有較大的潛力和價值:可以提供更強大的工具和方法,有助於研究更廣泛的主題,提高研究效率,同時也可以帶來新的研究機會和領域。目前國內深度求索的DeepSeek、百度的文心一言、智譜華章的智譜清言已經上線,面向個人用戶免費使用,並且支持文本、圖片等多模態,為國內學者開展研究提供了極大便利。同時,鑒於大語言模型存在的缺點和弊端,新聞傳播學研究人員也應謹慎使用這些模型,有關機構也應積極規範,以確保大語言模型在新聞傳播學實證研究中符合道德和倫理標準。
本文參考文獻從略,完整版請參看刊物原文
本文引文格式:徐敬宏、郭迪帆:《大語言模型在新聞傳播學研究中的應用——以數據生成、分析、模擬為例》,全球傳媒學刊,2025年第2期,3-20頁。