北郵百家(BaiJia)大模型:用AI對話古人,開啟沉浸式歷史體驗

2025年01月20日20:40:45 財經 5091

百家是首個專註於低資源歷史人物的智能體大模型,目前包含2萬個中國歷史人物AI智能體, 旨在用AI技術為硅基人類打造情感飽滿、記憶超凡的大腦

北郵百家(BaiJia)大模型:用AI對話古人,開啟沉浸式歷史體驗 - 天天要聞北郵百家(BaiJia)大模型:用AI對話古人,開啟沉浸式歷史體驗 - 天天要聞

百家由北郵白婷老師帶領的研究小組開發, 目前平台處於初步測試階段。由於純自費算力資源,目前只為註冊用戶提供1000個交互tokens/天.

  • 科研用途:開源(huggingface)BaiJia_Lite模型,提供100個角色用於SFT,完整的評測數據和評測benchmark.

01

摘要

百家是首個專註於低資源歷史人物數據的大模型,可用於大語言模型(LLMs)來進行基於 AI 的歷史角色扮演。BaiJia 針對碎片化的歷史文本記錄形式多樣、來源複雜等挑戰,整合了多種歷史人物的信息,包括其傳記、文學作品、家族關係、歷史事件等內容。我們在不同規模的開源基座模型(Qwen, DeepSeek, LLaMA)上進行實驗,證明 BaiJia 語料庫在提升多種基礎 LLM 的角色扮演能力方面的有效性。同時也對比了商用角色扮演大模型(Baichuan-NPC, 通義星辰), 百家均取得全維度性能提升。百家開源了維度最全面的角色扮演評測框架,促進了 LLMs 在角色扮演任務中的評估。

02

背景

近年來,大語言模型(LLMs)展現了極大的角色扮演潛力,但現有的研究主要集中於現代虛構角色(如動漫、小說中的人物),鮮少涉及歷史人物的扮演能力。而中國歷史人物豐富且複雜,從歷史背景到情感與文化表達,這類任務對模型提出了更高的要求。研究中面臨的核心挑戰包括:

1.數據稀缺:歷史人物的信息分散在文獻、古籍、藝術品等多種來源中。

2.多樣性不足:現有角色扮演數據集中的角色數量有限,難以覆蓋豐富的歷史人物。

3.評價體系空白:針對歷史角色扮演的評價標準缺乏,無法有效衡量模型的表現。

為解決這些問題,我們構建了BaiJia語料庫,並構建了BaiJia歷史人物垂域大模型,實現了低資源歷史數據在大模型中的高效利用。此外,我們設計了一套針對中國古代人物的科學測評框架,填補了歷史角色扮演領域的空白。以下表格展示了 BaiJia 數據集與其他數據集的區別及其獨特優勢。

北郵百家(BaiJia)大模型:用AI對話古人,開啟沉浸式歷史體驗 - 天天要聞

03

方法

1. 數據收集

我們精心挑選並整合了多個權威數據來源,包括維基百科、CBDB、古詩文網以及中國哲學書電子化計劃等豐富數據來源。這些頂尖資源確保了數據的權威性和廣泛性,使我們能夠全方位還原中國歷史人物的真實風貌。

2. 角色模版設計

我們為每位歷史人物精心構建了詳盡的角色簡歷(Resume),內容結構清晰,細分為15個子類別。每份簡歷全面呈現人物的生平細節,從基礎信息到家族關係、職業生涯,再到文學成就等,力求以豐富的維度真實還原歷史人物的風貌。

3. 對話生成

在完成歷史人物角色簡歷構建後,我們進一步通過對話生成技術,為每位歷史人物設計個性化的對話內容。這一過程分為對話場景提取和對話內容生成兩大關鍵步驟:我們為歷史人物精心設計了10個獨特的對話場景。這些場景覆蓋宮廷對話、家族交流、文學辯論等,充分體現人物的社交關係、重要人生事件及其文學作品背景。所有場景均遵循歷史真實語境,力求還原人物所處的時代氛圍和思想風貌。

4. 微調BaiJia模型

我們基於Qwen2.5-7B模型進行微調,基於2萬個中國歷史人物,30餘萬部歷史著作,19萬對話數據對基座大模型進行訓練微調。最終,我們得到了一個輕量級、精於中國歷史角色扮演的BaiJia大模型。

04

測評框架

在角色扮演能力的測評中,我們打造了一套全面且科學的測評框架。從問題的自動化生成到針對性評分規則的設計,每一步都精心優化,確保了模型在中國古代歷史角色扮演任務中的表現能夠被科學地評估。在問題集的構建方面,每個人物的問題集涵蓋五個核心維度,分別為個人背景、時代背景、家族與社會關係、思想與價值觀,以及成就與貢獻。在評測方面,BaiJia除了通用的角色扮演評價指標,還設計了專門針對中國古代人物的角色扮演評測維度。從角色一致性(CC)、對話能力(DA)、角色吸引力(CA)、情感表達與智識深度(EI)、創造力與角色深度擴展(CR),以及文化與歷史適配性(CHA)六個大維度、十二個子維度,能夠從表層表現到深層精神內核,全面覆蓋對模型的評估需求。具體見下表。

北郵百家(BaiJia)大模型:用AI對話古人,開啟沉浸式歷史體驗 - 天天要聞

為了提升評測的效率和公平性,框架中引入了GPT自動化評分技術。評分過程結合了預設模板與生成文本的多維度分析,能夠快速判斷模型生成內容是否符合歷史角色的背景、個性特徵以及文化內涵。通過這一自動化技術,整個測評流程在減少人工評分主觀性的同時,也大大提高了評估效率。

05

實驗驗證

為驗證BaiJia語料對大語言模型(LLMs)角色扮演能力的提升效果,我們在多個主流模型(如ChatGLM、Baichuan、Qwen等)上進行了實驗。實驗中,我們分別對比了無BaiJia語料(只提供基礎信息)與結合BaiJia語料的模型表現,具體的結果如下:

北郵百家(BaiJia)大模型:用AI對話古人,開啟沉浸式歷史體驗 - 天天要聞

通過觀察結果,我們發現以下顯著提升:引入BaiJia語料後,所有模型在六個維度上均有顯著提升,其中角色一致性(CC)和文化與歷史適配性(CHA)提升幅度尤為突出,分別達到23.5%和21.7%(以ChatGLM為例)。在六大維度的綜合表現中,各模型的平均提升幅度達到了11.8%

06

樣例演示

百家智能體交互和評測功能介紹,以李清照為例,百家內容更加充實可靠,語言風格明確,情感豐富

北郵百家(BaiJia)大模型:用AI對話古人,開啟沉浸式歷史體驗 - 天天要聞

樣例分析:針對元代歷史人物白賁的經典問題——「你最自豪的文學作品是什麼?」,不同模型給出了截然不同的答案。這場「角色扮演答題」的較量,直觀展現了「BaiJia」智能體的獨特優勢。

北郵百家(BaiJia)大模型:用AI對話古人,開啟沉浸式歷史體驗 - 天天要聞

Baichuan-NPC:生成了虛構的作品《白子令·詠雪》,儘管文采動人,但完全背離了歷史事實,暴露了對真實歷史信息的掌控不足。

GPT-4 與 Qwen2.5-7B:兩款模型因缺乏相關知識,給出的回答模稜兩可,未能準確捕捉白本的歷史身份,GPT-4甚至僅表示白賁「可能並沒有傳世之作」。

BaiJia模型:精準還原歷史記錄,回答白賁的代表作《鸚鵡曲·漁父》,並結合情感表達與歷史背景描述出人物的內心情感與創作靈感。

文|康佳政,碩士生,北京郵電大學

財經分類資訊推薦

太火爆!茅台公告:股東大會換場地 - 天天要聞

太火爆!茅台公告:股東大會換場地

【來源:上海證券報】貴州茅台5月14日晚間公告,因登記參會人數超過原定會議召開地點會場容量,計劃調整公司2024年度股東大會現場會議召開地點,調整後的會議召開地點為茅台鎮茅台會議中心。公告顯示,除上述會議召開地點變更外,其他通知事項不變。
一季度業績失守,股價大跌超8%,全球箱包龍頭新秀麗為何「賣不動」了? - 天天要聞

一季度業績失守,股價大跌超8%,全球箱包龍頭新秀麗為何「賣不動」了?

每經記者:舒冬妮 丁舟洋 每經編輯:張海妮當《007之黑日危機》中詹姆斯·邦德拿著Samsonite(新秀麗)手提箱初露鋒芒,當《來自星星的你》中各款新秀麗背包高頻出鏡,箱包上凸顯的是無聲的品牌宣言。從流行影視劇到現實生活,那些年,機場貴賓廳的皮質沙發上,新秀麗旅行箱包穩居「C位」。圖片來源:新秀麗官方微博但2025...
直面亞太API安全「暗戰」,企業如何尋求破局之路? - 天天要聞

直面亞太API安全「暗戰」,企業如何尋求破局之路?

【ZOL中關村在線原創專訪】在當今數字化浪潮中,應用程序編程介面(API)作為連接不同應用程序、系統和服務的橋樑,已成為企業數字化轉型的關鍵要素。然而,隨著API的廣泛應用,針對API的攻擊也日益頻繁、複雜且規模龐大,給企業帶來了巨大的安全挑戰。Akamai的研究顯示,從2023年1月到2024年6月期間,亞太地區總計記錄到了...
M2大幅回升,社融增速加快!重磅金融數據有何看點? - 天天要聞

M2大幅回升,社融增速加快!重磅金融數據有何看點?

文/夏賓中國4月份的金融總量保持合理增長,有力支持實體經濟。據中國央行剛剛公布的最新金融數據,廣義貨幣(M2)增速大幅回升,社會融資規模增速繼續加快,信貸增速保持較高水平,融資成本繼續往下走。M2增長明顯提速4月末,廣義貨幣(M2)餘額325.17萬億元,同比增長8.0%,比上月末高1.0個百分點,比上年同期高0.8個百分點...
「公司不賣了,我們要去排IPO」 - 天天要聞

「公司不賣了,我們要去排IPO」

2025年上半年,一級市場投融資領域迎來了顯著的復甦與變革。隨著IPO市場的回暖,投資機構的退出信心得到極大提振,市場活躍度顯著提升。Choice數據顯示,A股市場年內共有17家企業首發上會,且全部通過審核,過會率高達100%。
*黃金未來還有上漲的機會嗎?數據與趨勢深度解析 - 天天要聞

*黃金未來還有上漲的機會嗎?數據與趨勢深度解析

**黃金未來還有上漲的機會嗎?黃金作為全球公認的「避險之王」,其價格波動始終牽動投資者神經。2023年,國際金價一度突破2000美元/盎司,創下歷史新高,隨後進入震蕩調整。展望未來,黃金能否延續上漲趨勢?本文結合宏觀經濟、市場供需與技術面數
說好的衰退呢?美股的突然反彈讓基金經理們措手不及 - 天天要聞

說好的衰退呢?美股的突然反彈讓基金經理們措手不及

本周,中美關稅暫緩的消息引發美國資產狂歡,導致押注美國經濟衰退的投資者損失慘重,大量機構被迫平倉空頭頭寸,進一步推動美股和美元劇烈反彈。此前,央視新聞報道稱,商務部表示,美方取消共計91%加征關稅,中方相應取消91%反制關稅;美方暫停實施24%「對等關稅」,中方也相應暫停實施24%反制關稅。這一消息點燃市場情緒...
今年前4個月上海對拉美國家進出口總值增長2% - 天天要聞

今年前4個月上海對拉美國家進出口總值增長2%

記者今天從上海海關獲悉,今年前4個月,上海對拉丁美洲和加勒比(簡稱拉美)國家進出口總值達908.1億元人民幣,同比增長2%。自去年12月開通以來,中拉陸海新通道「錢凱-上海」海運航線貨運量、進出口值穩定增長。作為中拉共建「一帶一路」的標誌性項目,該航線今年前4個月累計開行班輪48航次,上海海關累計監管進出口貨物4...