北邮百家（BaiJia）大模型：用AI对话古人，开启沉浸式历史体验

2025年01月20日20:40:45 财经 5091

百家是首个专注于低资源历史人物的智能体大模型，目前包含2万个中国历史人物AI智能体, 旨在用AI技术为硅基人类打造情感饱满、记忆超凡的大脑

北邮百家（BaiJia）大模型：用AI对话古人，开启沉浸式历史体验 - 天天要闻

百家由北邮白婷老师带领的研究小组开发, 目前平台处于初步测试阶段。由于纯自费算力资源，目前只为注册用户提供1000个交互tokens/天.

科研用途：开源（huggingface）BaiJia_Lite模型，提供100个角色用于SFT，完整的评测数据和评测benchmark.

商业用途：可提供BaiJia大模型API 调用接口，请联系[email protected]

摘要

百家是首个专注于低资源历史人物数据的大模型，可用于大语言模型（LLMs）来进行基于 AI 的历史角色扮演。BaiJia 针对碎片化的历史文本记录形式多样、来源复杂等挑战，整合了多种历史人物的信息，包括其传记、文学作品、家族关系、历史事件等内容。我们在不同规模的开源基座模型（Qwen, DeepSeek, LLaMA）上进行实验，证明 BaiJia 语料库在提升多种基础 LLM 的角色扮演能力方面的有效性。同时也对比了商用角色扮演大模型（Baichuan-NPC, 通义星辰), 百家均取得全维度性能提升。百家开源了维度最全面的角色扮演评测框架，促进了 LLMs 在角色扮演任务中的评估。

背景

近年来，大语言模型（LLMs）展现了极大的角色扮演潜力，但现有的研究主要集中于现代虚构角色（如动漫、小说中的人物），鲜少涉及历史人物的扮演能力。而中国历史人物丰富且复杂，从历史背景到情感与文化表达，这类任务对模型提出了更高的要求。研究中面临的核心挑战包括：

1.数据稀缺：历史人物的信息分散在文献、古籍、艺术品等多种来源中。

2.多样性不足：现有角色扮演数据集中的角色数量有限，难以覆盖丰富的历史人物。

3.评价体系空白：针对历史角色扮演的评价标准缺乏，无法有效衡量模型的表现。

为解决这些问题，我们构建了BaiJia语料库，并构建了BaiJia历史人物垂域大模型，实现了低资源历史数据在大模型中的高效利用。此外，我们设计了一套针对中国古代人物的科学测评框架，填补了历史角色扮演领域的空白。以下表格展示了 BaiJia 数据集与其他数据集的区别及其独特优势。

方法

1. 数据收集

我们精心挑选并整合了多个权威数据来源，包括维基百科、CBDB、古诗文网以及中国哲学书电子化计划等丰富数据来源。这些顶尖资源确保了数据的权威性和广泛性，使我们能够全方位还原中国历史人物的真实风貌。

2. 角色模版设计

我们为每位历史人物精心构建了详尽的角色简历（Resume），内容结构清晰，细分为15个子类别。每份简历全面呈现人物的生平细节，从基础信息到家族关系、职业生涯，再到文学成就等，力求以丰富的维度真实还原历史人物的风貌。

3. 对话生成

在完成历史人物角色简历构建后，我们进一步通过对话生成技术，为每位历史人物设计个性化的对话内容。这一过程分为对话场景提取和对话内容生成两大关键步骤：我们为历史人物精心设计了10个独特的对话场景。这些场景覆盖宫廷对话、家族交流、文学辩论等，充分体现人物的社交关系、重要人生事件及其文学作品背景。所有场景均遵循历史真实语境，力求还原人物所处的时代氛围和思想风貌。

4. 微调BaiJia模型

我们基于Qwen2.5-7B模型进行微调，基于2万个中国历史人物，30余万部历史著作,19万对话数据对基座大模型进行训练微调。最终，我们得到了一个轻量级、精于中国历史角色扮演的BaiJia大模型。

测评框架

在角色扮演能力的测评中，我们打造了一套全面且科学的测评框架。从问题的自动化生成到针对性评分规则的设计，每一步都精心优化，确保了模型在中国古代历史角色扮演任务中的表现能够被科学地评估。在问题集的构建方面，每个人物的问题集涵盖五个核心维度，分别为个人背景、时代背景、家族与社会关系、思想与价值观，以及成就与贡献。在评测方面，BaiJia除了通用的角色扮演评价指标，还设计了专门针对中国古代人物的角色扮演评测维度。从角色一致性(CC)、对话能力(DA)、角色吸引力(CA)、情感表达与智识深度(EI)、创造力与角色深度扩展(CR)，以及文化与历史适配性(CHA)六个大维度、十二个子维度，能够从表层表现到深层精神内核，全面覆盖对模型的评估需求。具体见下表。