北邮百家(BaiJia)大模型:用AI对话古人,开启沉浸式历史体验

2025年01月20日20:40:45 财经 5091

百家是首个专注于低资源历史人物的智能体大模型,目前包含2万个中国历史人物AI智能体, 旨在用AI技术为硅基人类打造情感饱满、记忆超凡的大脑

北邮百家(BaiJia)大模型:用AI对话古人,开启沉浸式历史体验 - 天天要闻北邮百家(BaiJia)大模型:用AI对话古人,开启沉浸式历史体验 - 天天要闻

百家由北邮白婷老师带领的研究小组开发, 目前平台处于初步测试阶段。由于纯自费算力资源,目前只为注册用户提供1000个交互tokens/天.

  • 科研用途:开源(huggingface)BaiJia_Lite模型,提供100个角色用于SFT,完整的评测数据和评测benchmark.

01

摘要

百家是首个专注于低资源历史人物数据的大模型,可用于大语言模型(LLMs)来进行基于 AI 的历史角色扮演。BaiJia 针对碎片化的历史文本记录形式多样、来源复杂等挑战,整合了多种历史人物的信息,包括其传记、文学作品、家族关系、历史事件等内容。我们在不同规模的开源基座模型(Qwen, DeepSeek, LLaMA)上进行实验,证明 BaiJia 语料库在提升多种基础 LLM 的角色扮演能力方面的有效性。同时也对比了商用角色扮演大模型(Baichuan-NPC, 通义星辰), 百家均取得全维度性能提升。百家开源了维度最全面的角色扮演评测框架,促进了 LLMs 在角色扮演任务中的评估。

02

背景

近年来,大语言模型(LLMs)展现了极大的角色扮演潜力,但现有的研究主要集中于现代虚构角色(如动漫、小说中的人物),鲜少涉及历史人物的扮演能力。而中国历史人物丰富且复杂,从历史背景到情感与文化表达,这类任务对模型提出了更高的要求。研究中面临的核心挑战包括:

1.数据稀缺:历史人物的信息分散在文献、古籍、艺术品等多种来源中。

2.多样性不足:现有角色扮演数据集中的角色数量有限,难以覆盖丰富的历史人物。

3.评价体系空白:针对历史角色扮演的评价标准缺乏,无法有效衡量模型的表现。

为解决这些问题,我们构建了BaiJia语料库,并构建了BaiJia历史人物垂域大模型,实现了低资源历史数据在大模型中的高效利用。此外,我们设计了一套针对中国古代人物的科学测评框架,填补了历史角色扮演领域的空白。以下表格展示了 BaiJia 数据集与其他数据集的区别及其独特优势。

北邮百家(BaiJia)大模型:用AI对话古人,开启沉浸式历史体验 - 天天要闻

03

方法

1. 数据收集

我们精心挑选并整合了多个权威数据来源,包括维基百科、CBDB、古诗文网以及中国哲学书电子化计划等丰富数据来源。这些顶尖资源确保了数据的权威性和广泛性,使我们能够全方位还原中国历史人物的真实风貌。

2. 角色模版设计

我们为每位历史人物精心构建了详尽的角色简历(Resume),内容结构清晰,细分为15个子类别。每份简历全面呈现人物的生平细节,从基础信息到家族关系、职业生涯,再到文学成就等,力求以丰富的维度真实还原历史人物的风貌。

3. 对话生成

在完成历史人物角色简历构建后,我们进一步通过对话生成技术,为每位历史人物设计个性化的对话内容。这一过程分为对话场景提取和对话内容生成两大关键步骤:我们为历史人物精心设计了10个独特的对话场景。这些场景覆盖宫廷对话、家族交流、文学辩论等,充分体现人物的社交关系、重要人生事件及其文学作品背景。所有场景均遵循历史真实语境,力求还原人物所处的时代氛围和思想风貌。

4. 微调BaiJia模型

我们基于Qwen2.5-7B模型进行微调,基于2万个中国历史人物,30余万部历史著作,19万对话数据对基座大模型进行训练微调。最终,我们得到了一个轻量级、精于中国历史角色扮演的BaiJia大模型。

04

测评框架

在角色扮演能力的测评中,我们打造了一套全面且科学的测评框架。从问题的自动化生成到针对性评分规则的设计,每一步都精心优化,确保了模型在中国古代历史角色扮演任务中的表现能够被科学地评估。在问题集的构建方面,每个人物的问题集涵盖五个核心维度,分别为个人背景、时代背景、家族与社会关系、思想与价值观,以及成就与贡献。在评测方面,BaiJia除了通用的角色扮演评价指标,还设计了专门针对中国古代人物的角色扮演评测维度。从角色一致性(CC)、对话能力(DA)、角色吸引力(CA)、情感表达与智识深度(EI)、创造力与角色深度扩展(CR),以及文化与历史适配性(CHA)六个大维度、十二个子维度,能够从表层表现到深层精神内核,全面覆盖对模型的评估需求。具体见下表。

北邮百家(BaiJia)大模型:用AI对话古人,开启沉浸式历史体验 - 天天要闻

为了提升评测的效率和公平性,框架中引入了GPT自动化评分技术。评分过程结合了预设模板与生成文本的多维度分析,能够快速判断模型生成内容是否符合历史角色的背景、个性特征以及文化内涵。通过这一自动化技术,整个测评流程在减少人工评分主观性的同时,也大大提高了评估效率。

05

实验验证

为验证BaiJia语料对大语言模型(LLMs)角色扮演能力的提升效果,我们在多个主流模型(如ChatGLM、Baichuan、Qwen等)上进行了实验。实验中,我们分别对比了无BaiJia语料(只提供基础信息)与结合BaiJia语料的模型表现,具体的结果如下:

北邮百家(BaiJia)大模型:用AI对话古人,开启沉浸式历史体验 - 天天要闻

通过观察结果,我们发现以下显著提升:引入BaiJia语料后,所有模型在六个维度上均有显著提升,其中角色一致性(CC)和文化与历史适配性(CHA)提升幅度尤为突出,分别达到23.5%和21.7%(以ChatGLM为例)。在六大维度的综合表现中,各模型的平均提升幅度达到了11.8%

06

样例演示

百家智能体交互和评测功能介绍,以李清照为例,百家内容更加充实可靠,语言风格明确,情感丰富

北邮百家(BaiJia)大模型:用AI对话古人,开启沉浸式历史体验 - 天天要闻

样例分析:针对元代历史人物白贲的经典问题——“你最自豪的文学作品是什么?”,不同模型给出了截然不同的答案。这场“角色扮演答题”的较量,直观展现了“BaiJia”智能体的独特优势。

北邮百家(BaiJia)大模型:用AI对话古人,开启沉浸式历史体验 - 天天要闻

Baichuan-NPC:生成了虚构的作品《白子令·咏雪》,尽管文采动人,但完全背离了历史事实,暴露了对真实历史信息的掌控不足。

GPT-4 与 Qwen2.5-7B:两款模型因缺乏相关知识,给出的回答模棱两可,未能准确捕捉白本的历史身份,GPT-4甚至仅表示白贲“可能并没有传世之作”。

BaiJia模型:精准还原历史记录,回答白贲的代表作《鹦鹉曲·渔父》,并结合情感表达与历史背景描述出人物的内心情感与创作灵感。

文|康佳政,硕士生,北京邮电大学

财经分类资讯推荐

高新区三家国有企业与鄂尔多斯农商行召开银企对接会 - 天天要闻

高新区三家国有企业与鄂尔多斯农商行召开银企对接会

5月12日,佳奇城投公司、高投公司、高科控股公司与鄂尔多斯农村商业银行共同召开银企对接会。会议围绕项目贷款、存量贷款利息调整以及盘活银行资产等核心议题展开深入交流,达成了进一步合作意向,为后续银企协同发展开辟了新方向。
身价超450亿元!西北大学副校长成陕西首富 - 天天要闻

身价超450亿元!西北大学副校长成陕西首富

据最新消息,今年4月上任的西北大学女副校长范代娣及其丈夫以持股市值超450亿元的身价,成为新一任陕西首富。从履历来看,范代娣,1966年出生于陕西蒲城,其丈夫严建亚与其同岁,本科毕业于西北大学化工系,现为西北大学教授,博士生导师。
全长685公里!这条疆煤外运大通道铁路6月正式开工 - 天天要闻

全长685公里!这条疆煤外运大通道铁路6月正式开工

近日,正式批复临哈铁路扩能改造方案,这条横亘内蒙古685公里的“黑色黄金运输线”,即将重塑中国能源版图。全线扩能改造分为临河至额济纳和额济纳至哈密两段实施,实施新增二线及电气化工程后,临哈铁路全线将扩能改造为Ⅰ级双线电气化铁路,打造成万吨重
多只银行股,历史新高!A股市值破10万亿元板块诞生 - 天天要闻

多只银行股,历史新高!A股市值破10万亿元板块诞生

在贸易紧张局势缓和后,压制市场的重要因素有所缓解,市场的重心不断抬升,受益于贸易局势缓和相关题材接连走高。5月14日的A股市场整体保持震荡走势,临近午间收盘,主要股指快速拉升。截至午间收盘,沪指涨0.19%,深成指跌0.26%,创业板指跌0
金价,突然大跳水! - 天天要闻

金价,突然大跳水!

黄金突然再跳水!5月14日晚,现货黄金跌势不止,向下跌破3180美元/盎司,创4月15日以来的新低。数据截至5月15日1时20分黄金的剧烈震荡,让投资黄金的人更多有了观望情绪,近期有银行再次发布公告,提醒投资者,警惕不法分子以“低门槛高收益”为诱饵,诱导持卡人通过信用卡“炒金”。建设银行、兴业银行、广发银行等多家银...
“美国客户比我们还急”!中美关税调整,中国厂家“电话被打爆”,有人一晚接了上百万元美国订单!航运公司也“爆单”了,有客户要求空运 - 天天要闻

“美国客户比我们还急”!中美关税调整,中国厂家“电话被打爆”,有人一晚接了上百万元美国订单!航运公司也“爆单”了,有客户要求空运

近日,中美贸易局势明显缓和。众多外贸企业纷纷惊呼“美国订单来了”。 北京时间5月12日下午3点,《中美日内瓦经贸会谈联合声明》发布,中美双方各取消91%的关税,暂停实施24%的对等关税90天。 北京时间5月14日12:01(美东时间5月14日凌晨00:01),中美双方正式调整了关税政策。 这两天,中美间的外贸往来迅速升温:深圳...
太火爆!茅台公告:股东大会换场地 - 天天要闻

太火爆!茅台公告:股东大会换场地

【来源:上海证券报】贵州茅台5月14日晚间公告,因登记参会人数超过原定会议召开地点会场容量,计划调整公司2024年度股东大会现场会议召开地点,调整后的会议召开地点为茅台镇茅台会议中心。公告显示,除上述会议召开地点变更外,其他通知事项不变。
一季度业绩失守,股价大跌超8%,全球箱包龙头新秀丽为何“卖不动”了? - 天天要闻

一季度业绩失守,股价大跌超8%,全球箱包龙头新秀丽为何“卖不动”了?

每经记者:舒冬妮 丁舟洋 每经编辑:张海妮当《007之黑日危机》中詹姆斯·邦德拿着Samsonite(新秀丽)手提箱初露锋芒,当《来自星星的你》中各款新秀丽背包高频出镜,箱包上凸显的是无声的品牌宣言。从流行影视剧到现实生活,那些年,机场贵宾厅的皮质沙发上,新秀丽旅行箱包稳居“C位”。图片来源:新秀丽官方微博但2025...