北邮百家(BaiJia)大模型:用AI对话古人,开启沉浸式历史体验

2025年01月20日20:40:45 财经 5091

百家是首个专注于低资源历史人物的智能体大模型,目前包含2万个中国历史人物AI智能体, 旨在用AI技术为硅基人类打造情感饱满、记忆超凡的大脑

北邮百家(BaiJia)大模型:用AI对话古人,开启沉浸式历史体验 - 天天要闻北邮百家(BaiJia)大模型:用AI对话古人,开启沉浸式历史体验 - 天天要闻

百家由北邮白婷老师带领的研究小组开发, 目前平台处于初步测试阶段。由于纯自费算力资源,目前只为注册用户提供1000个交互tokens/天.

  • 科研用途:开源(huggingface)BaiJia_Lite模型,提供100个角色用于SFT,完整的评测数据和评测benchmark.

01

摘要

百家是首个专注于低资源历史人物数据的大模型,可用于大语言模型(LLMs)来进行基于 AI 的历史角色扮演。BaiJia 针对碎片化的历史文本记录形式多样、来源复杂等挑战,整合了多种历史人物的信息,包括其传记、文学作品、家族关系、历史事件等内容。我们在不同规模的开源基座模型(Qwen, DeepSeek, LLaMA)上进行实验,证明 BaiJia 语料库在提升多种基础 LLM 的角色扮演能力方面的有效性。同时也对比了商用角色扮演大模型(Baichuan-NPC, 通义星辰), 百家均取得全维度性能提升。百家开源了维度最全面的角色扮演评测框架,促进了 LLMs 在角色扮演任务中的评估。

02

背景

近年来,大语言模型(LLMs)展现了极大的角色扮演潜力,但现有的研究主要集中于现代虚构角色(如动漫、小说中的人物),鲜少涉及历史人物的扮演能力。而中国历史人物丰富且复杂,从历史背景到情感与文化表达,这类任务对模型提出了更高的要求。研究中面临的核心挑战包括:

1.数据稀缺:历史人物的信息分散在文献、古籍、艺术品等多种来源中。

2.多样性不足:现有角色扮演数据集中的角色数量有限,难以覆盖丰富的历史人物。

3.评价体系空白:针对历史角色扮演的评价标准缺乏,无法有效衡量模型的表现。

为解决这些问题,我们构建了BaiJia语料库,并构建了BaiJia历史人物垂域大模型,实现了低资源历史数据在大模型中的高效利用。此外,我们设计了一套针对中国古代人物的科学测评框架,填补了历史角色扮演领域的空白。以下表格展示了 BaiJia 数据集与其他数据集的区别及其独特优势。

北邮百家(BaiJia)大模型:用AI对话古人,开启沉浸式历史体验 - 天天要闻

03

方法

1. 数据收集

我们精心挑选并整合了多个权威数据来源,包括维基百科、CBDB、古诗文网以及中国哲学书电子化计划等丰富数据来源。这些顶尖资源确保了数据的权威性和广泛性,使我们能够全方位还原中国历史人物的真实风貌。

2. 角色模版设计

我们为每位历史人物精心构建了详尽的角色简历(Resume),内容结构清晰,细分为15个子类别。每份简历全面呈现人物的生平细节,从基础信息到家族关系、职业生涯,再到文学成就等,力求以丰富的维度真实还原历史人物的风貌。

3. 对话生成

在完成历史人物角色简历构建后,我们进一步通过对话生成技术,为每位历史人物设计个性化的对话内容。这一过程分为对话场景提取和对话内容生成两大关键步骤:我们为历史人物精心设计了10个独特的对话场景。这些场景覆盖宫廷对话、家族交流、文学辩论等,充分体现人物的社交关系、重要人生事件及其文学作品背景。所有场景均遵循历史真实语境,力求还原人物所处的时代氛围和思想风貌。

4. 微调BaiJia模型

我们基于Qwen2.5-7B模型进行微调,基于2万个中国历史人物,30余万部历史著作,19万对话数据对基座大模型进行训练微调。最终,我们得到了一个轻量级、精于中国历史角色扮演的BaiJia大模型。

04

测评框架

在角色扮演能力的测评中,我们打造了一套全面且科学的测评框架。从问题的自动化生成到针对性评分规则的设计,每一步都精心优化,确保了模型在中国古代历史角色扮演任务中的表现能够被科学地评估。在问题集的构建方面,每个人物的问题集涵盖五个核心维度,分别为个人背景、时代背景、家族与社会关系、思想与价值观,以及成就与贡献。在评测方面,BaiJia除了通用的角色扮演评价指标,还设计了专门针对中国古代人物的角色扮演评测维度。从角色一致性(CC)、对话能力(DA)、角色吸引力(CA)、情感表达与智识深度(EI)、创造力与角色深度扩展(CR),以及文化与历史适配性(CHA)六个大维度、十二个子维度,能够从表层表现到深层精神内核,全面覆盖对模型的评估需求。具体见下表。

北邮百家(BaiJia)大模型:用AI对话古人,开启沉浸式历史体验 - 天天要闻

为了提升评测的效率和公平性,框架中引入了GPT自动化评分技术。评分过程结合了预设模板与生成文本的多维度分析,能够快速判断模型生成内容是否符合历史角色的背景、个性特征以及文化内涵。通过这一自动化技术,整个测评流程在减少人工评分主观性的同时,也大大提高了评估效率。

05

实验验证

为验证BaiJia语料对大语言模型(LLMs)角色扮演能力的提升效果,我们在多个主流模型(如ChatGLM、Baichuan、Qwen等)上进行了实验。实验中,我们分别对比了无BaiJia语料(只提供基础信息)与结合BaiJia语料的模型表现,具体的结果如下:

北邮百家(BaiJia)大模型:用AI对话古人,开启沉浸式历史体验 - 天天要闻

通过观察结果,我们发现以下显著提升:引入BaiJia语料后,所有模型在六个维度上均有显著提升,其中角色一致性(CC)和文化与历史适配性(CHA)提升幅度尤为突出,分别达到23.5%和21.7%(以ChatGLM为例)。在六大维度的综合表现中,各模型的平均提升幅度达到了11.8%

06

样例演示

百家智能体交互和评测功能介绍,以李清照为例,百家内容更加充实可靠,语言风格明确,情感丰富

北邮百家(BaiJia)大模型:用AI对话古人,开启沉浸式历史体验 - 天天要闻

样例分析:针对元代历史人物白贲的经典问题——“你最自豪的文学作品是什么?”,不同模型给出了截然不同的答案。这场“角色扮演答题”的较量,直观展现了“BaiJia”智能体的独特优势。

北邮百家(BaiJia)大模型:用AI对话古人,开启沉浸式历史体验 - 天天要闻

Baichuan-NPC:生成了虚构的作品《白子令·咏雪》,尽管文采动人,但完全背离了历史事实,暴露了对真实历史信息的掌控不足。

GPT-4 与 Qwen2.5-7B:两款模型因缺乏相关知识,给出的回答模棱两可,未能准确捕捉白本的历史身份,GPT-4甚至仅表示白贲“可能并没有传世之作”。

BaiJia模型:精准还原历史记录,回答白贲的代表作《鹦鹉曲·渔父》,并结合情感表达与历史背景描述出人物的内心情感与创作灵感。

文|康佳政,硕士生,北京邮电大学

财经分类资讯推荐

更小更强 OPPO Find X8s有哪些升级点? - 天天要闻

更小更强 OPPO Find X8s有哪些升级点?

4月10日,OPPO Find X8s系列正式发布,其中早在发布会之前就曝光的OPPO Find X8s就已经面纱解开,凭借小屏旗舰定位,让这个尺寸的机型又有一个强有力的竞争者。
仅1699史低的骁龙8 Gen3直屏旗舰机,太刺激了! - 天天要闻

仅1699史低的骁龙8 Gen3直屏旗舰机,太刺激了!

之前小智说了,本月会有一大波的新机发布,均搭载高通和联发科的新处理器,尤其是高通的骁龙8s Gen4机型众多。不过对于骁龙8s Gen4新机的定价目前还没有明确的曝光,但外界普遍认为这批新机会比较尴尬,因为骁龙8s Gen4的性能处于不上不下的水平
强悍性能和智慧体验并驾齐驱 OPPO Pad 4 Pro评测 - 天天要闻

强悍性能和智慧体验并驾齐驱 OPPO Pad 4 Pro评测

纵观近两年手机市场,在性能上格外内卷,就连3000元左右的中端机型也会配上当年最新的旗舰处理器。反观平板电脑市场,基本上都是选择的当年中端处理器或者上一代的旗舰处理器。为什么会出现这样的状况?这和它的产品定位有关系,不少厂商认为平板电脑还是以轻办公和娱乐为主,
有些网络审核也太离谱了,如果这也能审核过,那我也可以发! - 天天要闻

有些网络审核也太离谱了,如果这也能审核过,那我也可以发!

扭归扭,打归打,打完我们还是一对儿看着不太像是P的卖相就不太好喝的感觉实在太惨了一点如今有些网络审核也太离谱了请不要灌酒,否则后果堪忧俺的帽子威力不容小觑白子取得了碾压优势小孩哥:别闹了我都尴尬死了不要在马路上放飞气球场面似乎有点羞耻?冲着这发型也得加点工资当
中国首个AI智能化妆品无人车间正式投产 - 天天要闻

中国首个AI智能化妆品无人车间正式投产

近日,上美科技园智慧工厂正式投产,标志着美妆行业在智能制造领域迈出重要一步。该智慧工厂总投资3亿元,占地面积达20000平方米,作为中国首个AI智能化妆品无人车间,每日产能高达200万瓶,其全流程AI智能化生产体系备受瞩目。