百家是首個專註於低資源歷史人物的智能體大模型,目前包含2萬個中國歷史人物AI智能體, 旨在用AI技術為硅基人類打造情感飽滿、記憶超凡的大腦
百家由北郵白婷老師帶領的研究小組開發, 目前平台處於初步測試階段。由於純自費算力資源,目前只為註冊用戶提供1000個交互tokens/天.
- 科研用途:開源(huggingface)BaiJia_Lite模型,提供100個角色用於SFT,完整的評測數據和評測benchmark.
- 商業用途:可提供BaiJia大模型API 調用介面,請聯繫baiting@bupt.edu.cn
01
摘要
百家是首個專註於低資源歷史人物數據的大模型,可用於大語言模型(LLMs)來進行基於 AI 的歷史角色扮演。BaiJia 針對碎片化的歷史文本記錄形式多樣、來源複雜等挑戰,整合了多種歷史人物的信息,包括其傳記、文學作品、家族關係、歷史事件等內容。我們在不同規模的開源基座模型(Qwen, DeepSeek, LLaMA)上進行實驗,證明 BaiJia 語料庫在提升多種基礎 LLM 的角色扮演能力方面的有效性。同時也對比了商用角色扮演大模型(Baichuan-NPC, 通義星辰), 百家均取得全維度性能提升。百家開源了維度最全面的角色扮演評測框架,促進了 LLMs 在角色扮演任務中的評估。
02
背景
近年來,大語言模型(LLMs)展現了極大的角色扮演潛力,但現有的研究主要集中於現代虛構角色(如動漫、小說中的人物),鮮少涉及歷史人物的扮演能力。而中國歷史人物豐富且複雜,從歷史背景到情感與文化表達,這類任務對模型提出了更高的要求。研究中面臨的核心挑戰包括:
1.數據稀缺:歷史人物的信息分散在文獻、古籍、藝術品等多種來源中。
2.多樣性不足:現有角色扮演數據集中的角色數量有限,難以覆蓋豐富的歷史人物。
3.評價體系空白:針對歷史角色扮演的評價標準缺乏,無法有效衡量模型的表現。
為解決這些問題,我們構建了BaiJia語料庫,並構建了BaiJia歷史人物垂域大模型,實現了低資源歷史數據在大模型中的高效利用。此外,我們設計了一套針對中國古代人物的科學測評框架,填補了歷史角色扮演領域的空白。以下表格展示了 BaiJia 數據集與其他數據集的區別及其獨特優勢。
03
方法
1. 數據收集
我們精心挑選並整合了多個權威數據來源,包括維基百科、CBDB、古詩文網以及中國哲學書電子化計劃等豐富數據來源。這些頂尖資源確保了數據的權威性和廣泛性,使我們能夠全方位還原中國歷史人物的真實風貌。
2. 角色模版設計
我們為每位歷史人物精心構建了詳盡的角色簡歷(Resume),內容結構清晰,細分為15個子類別。每份簡歷全面呈現人物的生平細節,從基礎信息到家族關係、職業生涯,再到文學成就等,力求以豐富的維度真實還原歷史人物的風貌。
3. 對話生成
在完成歷史人物角色簡歷構建後,我們進一步通過對話生成技術,為每位歷史人物設計個性化的對話內容。這一過程分為對話場景提取和對話內容生成兩大關鍵步驟:我們為歷史人物精心設計了10個獨特的對話場景。這些場景覆蓋宮廷對話、家族交流、文學辯論等,充分體現人物的社交關係、重要人生事件及其文學作品背景。所有場景均遵循歷史真實語境,力求還原人物所處的時代氛圍和思想風貌。
4. 微調BaiJia模型
我們基於Qwen2.5-7B模型進行微調,基於2萬個中國歷史人物,30餘萬部歷史著作,19萬對話數據對基座大模型進行訓練微調。最終,我們得到了一個輕量級、精於中國歷史角色扮演的BaiJia大模型。
04
測評框架
在角色扮演能力的測評中,我們打造了一套全面且科學的測評框架。從問題的自動化生成到針對性評分規則的設計,每一步都精心優化,確保了模型在中國古代歷史角色扮演任務中的表現能夠被科學地評估。在問題集的構建方面,每個人物的問題集涵蓋五個核心維度,分別為個人背景、時代背景、家族與社會關係、思想與價值觀,以及成就與貢獻。在評測方面,BaiJia除了通用的角色扮演評價指標,還設計了專門針對中國古代人物的角色扮演評測維度。從角色一致性(CC)、對話能力(DA)、角色吸引力(CA)、情感表達與智識深度(EI)、創造力與角色深度擴展(CR),以及文化與歷史適配性(CHA)六個大維度、十二個子維度,能夠從表層表現到深層精神內核,全面覆蓋對模型的評估需求。具體見下表。
為了提升評測的效率和公平性,框架中引入了GPT自動化評分技術。評分過程結合了預設模板與生成文本的多維度分析,能夠快速判斷模型生成內容是否符合歷史角色的背景、個性特徵以及文化內涵。通過這一自動化技術,整個測評流程在減少人工評分主觀性的同時,也大大提高了評估效率。
05
實驗驗證
為驗證BaiJia語料對大語言模型(LLMs)角色扮演能力的提升效果,我們在多個主流模型(如ChatGLM、Baichuan、Qwen等)上進行了實驗。實驗中,我們分別對比了無BaiJia語料(只提供基礎信息)與結合BaiJia語料的模型表現,具體的結果如下:
通過觀察結果,我們發現以下顯著提升:引入BaiJia語料後,所有模型在六個維度上均有顯著提升,其中角色一致性(CC)和文化與歷史適配性(CHA)提升幅度尤為突出,分別達到23.5%和21.7%(以ChatGLM為例)。在六大維度的綜合表現中,各模型的平均提升幅度達到了11.8%
06
樣例演示
百家智能體交互和評測功能介紹,以李清照為例,百家內容更加充實可靠,語言風格明確,情感豐富
樣例分析:針對元代歷史人物白賁的經典問題——「你最自豪的文學作品是什麼?」,不同模型給出了截然不同的答案。這場「角色扮演答題」的較量,直觀展現了「BaiJia」智能體的獨特優勢。
Baichuan-NPC:生成了虛構的作品《白子令·詠雪》,儘管文采動人,但完全背離了歷史事實,暴露了對真實歷史信息的掌控不足。
GPT-4 與 Qwen2.5-7B:兩款模型因缺乏相關知識,給出的回答模稜兩可,未能準確捕捉白本的歷史身份,GPT-4甚至僅表示白賁「可能並沒有傳世之作」。
BaiJia模型:精準還原歷史記錄,回答白賁的代表作《鸚鵡曲·漁父》,並結合情感表達與歷史背景描述出人物的內心情感與創作靈感。
文|康佳政,碩士生,北京郵電大學