北邮百家(BaiJia)大模型:用AI对话古人,开启沉浸式历史体验

2025年01月20日20:40:45 财经 5091

百家是首个专注于低资源历史人物的智能体大模型,目前包含2万个中国历史人物AI智能体, 旨在用AI技术为硅基人类打造情感饱满、记忆超凡的大脑

北邮百家(BaiJia)大模型:用AI对话古人,开启沉浸式历史体验 - 天天要闻北邮百家(BaiJia)大模型:用AI对话古人,开启沉浸式历史体验 - 天天要闻

百家由北邮白婷老师带领的研究小组开发, 目前平台处于初步测试阶段。由于纯自费算力资源,目前只为注册用户提供1000个交互tokens/天.

  • 科研用途:开源(huggingface)BaiJia_Lite模型,提供100个角色用于SFT,完整的评测数据和评测benchmark.

01

摘要

百家是首个专注于低资源历史人物数据的大模型,可用于大语言模型(LLMs)来进行基于 AI 的历史角色扮演。BaiJia 针对碎片化的历史文本记录形式多样、来源复杂等挑战,整合了多种历史人物的信息,包括其传记、文学作品、家族关系、历史事件等内容。我们在不同规模的开源基座模型(Qwen, DeepSeek, LLaMA)上进行实验,证明 BaiJia 语料库在提升多种基础 LLM 的角色扮演能力方面的有效性。同时也对比了商用角色扮演大模型(Baichuan-NPC, 通义星辰), 百家均取得全维度性能提升。百家开源了维度最全面的角色扮演评测框架,促进了 LLMs 在角色扮演任务中的评估。

02

背景

近年来,大语言模型(LLMs)展现了极大的角色扮演潜力,但现有的研究主要集中于现代虚构角色(如动漫、小说中的人物),鲜少涉及历史人物的扮演能力。而中国历史人物丰富且复杂,从历史背景到情感与文化表达,这类任务对模型提出了更高的要求。研究中面临的核心挑战包括:

1.数据稀缺:历史人物的信息分散在文献、古籍、艺术品等多种来源中。

2.多样性不足:现有角色扮演数据集中的角色数量有限,难以覆盖丰富的历史人物。

3.评价体系空白:针对历史角色扮演的评价标准缺乏,无法有效衡量模型的表现。

为解决这些问题,我们构建了BaiJia语料库,并构建了BaiJia历史人物垂域大模型,实现了低资源历史数据在大模型中的高效利用。此外,我们设计了一套针对中国古代人物的科学测评框架,填补了历史角色扮演领域的空白。以下表格展示了 BaiJia 数据集与其他数据集的区别及其独特优势。

北邮百家(BaiJia)大模型:用AI对话古人,开启沉浸式历史体验 - 天天要闻

03

方法

1. 数据收集

我们精心挑选并整合了多个权威数据来源,包括维基百科、CBDB、古诗文网以及中国哲学书电子化计划等丰富数据来源。这些顶尖资源确保了数据的权威性和广泛性,使我们能够全方位还原中国历史人物的真实风貌。

2. 角色模版设计

我们为每位历史人物精心构建了详尽的角色简历(Resume),内容结构清晰,细分为15个子类别。每份简历全面呈现人物的生平细节,从基础信息到家族关系、职业生涯,再到文学成就等,力求以丰富的维度真实还原历史人物的风貌。

3. 对话生成

在完成历史人物角色简历构建后,我们进一步通过对话生成技术,为每位历史人物设计个性化的对话内容。这一过程分为对话场景提取和对话内容生成两大关键步骤:我们为历史人物精心设计了10个独特的对话场景。这些场景覆盖宫廷对话、家族交流、文学辩论等,充分体现人物的社交关系、重要人生事件及其文学作品背景。所有场景均遵循历史真实语境,力求还原人物所处的时代氛围和思想风貌。

4. 微调BaiJia模型

我们基于Qwen2.5-7B模型进行微调,基于2万个中国历史人物,30余万部历史著作,19万对话数据对基座大模型进行训练微调。最终,我们得到了一个轻量级、精于中国历史角色扮演的BaiJia大模型。

04

测评框架

在角色扮演能力的测评中,我们打造了一套全面且科学的测评框架。从问题的自动化生成到针对性评分规则的设计,每一步都精心优化,确保了模型在中国古代历史角色扮演任务中的表现能够被科学地评估。在问题集的构建方面,每个人物的问题集涵盖五个核心维度,分别为个人背景、时代背景、家族与社会关系、思想与价值观,以及成就与贡献。在评测方面,BaiJia除了通用的角色扮演评价指标,还设计了专门针对中国古代人物的角色扮演评测维度。从角色一致性(CC)、对话能力(DA)、角色吸引力(CA)、情感表达与智识深度(EI)、创造力与角色深度扩展(CR),以及文化与历史适配性(CHA)六个大维度、十二个子维度,能够从表层表现到深层精神内核,全面覆盖对模型的评估需求。具体见下表。

北邮百家(BaiJia)大模型:用AI对话古人,开启沉浸式历史体验 - 天天要闻

为了提升评测的效率和公平性,框架中引入了GPT自动化评分技术。评分过程结合了预设模板与生成文本的多维度分析,能够快速判断模型生成内容是否符合历史角色的背景、个性特征以及文化内涵。通过这一自动化技术,整个测评流程在减少人工评分主观性的同时,也大大提高了评估效率。

05

实验验证

为验证BaiJia语料对大语言模型(LLMs)角色扮演能力的提升效果,我们在多个主流模型(如ChatGLM、Baichuan、Qwen等)上进行了实验。实验中,我们分别对比了无BaiJia语料(只提供基础信息)与结合BaiJia语料的模型表现,具体的结果如下:

北邮百家(BaiJia)大模型:用AI对话古人,开启沉浸式历史体验 - 天天要闻

通过观察结果,我们发现以下显著提升:引入BaiJia语料后,所有模型在六个维度上均有显著提升,其中角色一致性(CC)和文化与历史适配性(CHA)提升幅度尤为突出,分别达到23.5%和21.7%(以ChatGLM为例)。在六大维度的综合表现中,各模型的平均提升幅度达到了11.8%

06

样例演示

百家智能体交互和评测功能介绍,以李清照为例,百家内容更加充实可靠,语言风格明确,情感丰富

北邮百家(BaiJia)大模型:用AI对话古人,开启沉浸式历史体验 - 天天要闻

样例分析:针对元代历史人物白贲的经典问题——“你最自豪的文学作品是什么?”,不同模型给出了截然不同的答案。这场“角色扮演答题”的较量,直观展现了“BaiJia”智能体的独特优势。

北邮百家(BaiJia)大模型:用AI对话古人,开启沉浸式历史体验 - 天天要闻

Baichuan-NPC:生成了虚构的作品《白子令·咏雪》,尽管文采动人,但完全背离了历史事实,暴露了对真实历史信息的掌控不足。

GPT-4 与 Qwen2.5-7B:两款模型因缺乏相关知识,给出的回答模棱两可,未能准确捕捉白本的历史身份,GPT-4甚至仅表示白贲“可能并没有传世之作”。

BaiJia模型:精准还原历史记录,回答白贲的代表作《鹦鹉曲·渔父》,并结合情感表达与历史背景描述出人物的内心情感与创作灵感。

文|康佳政,硕士生,北京邮电大学

财经分类资讯推荐

中国资产爆发!这一指数,技术性牛市! - 天天要闻

中国资产爆发!这一指数,技术性牛市!

A股昨日强势上扬,沪指盘中突破3400点,创业板指涨超1%;港股亦走强,恒生指数涨超1%重返24000点上方,恒生科技指数大涨近3%,自4月低点涨幅超过20%,迈入技术性牛市。具体来看,三大股指盘中震荡走高,沪指一度收复3400点,创业板指
A股,这一类案例激增!啥情况? - 天天要闻

A股,这一类案例激增!啥情况?

自去年5月减持新规落地后,A股市场频繁出现协议转让的案例,但近期多家上市公司公告终止协议转让。据证券时报记者不完全统计,截至6月6日,今年以来,已有30家上市公司发布股东终止协议转让公司股份的公告,超过2024年全年的数量。
全线爆发,最高涨了62%! - 天天要闻

全线爆发,最高涨了62%!

稀土板块突然爆发。昨日,港股稀土概念股全线爆发,中国稀土H股午后一度暴涨超62%,金力永磁H股一度大涨超8%。消息方面,商务部新闻发言人表示,已依法批准一定数量的合规申请,并将持续加强合规申请的审批工作。对此,市场人士预计,稀土价格有望继续
戴帽的纳川股份(300198),R傻Q多的长江环保? - 天天要闻

戴帽的纳川股份(300198),R傻Q多的长江环保?

ST纳川以前叫纳川股份(300198),是国内领先的高密度聚乙烯(HDPE)缠绕增强管研发与生产企业,就是下图这玩意,公司的主要产品优势是大口径HDPE管,直径3~4米,很粗很大那种。这就是HDPE管纳川的博弈点在于长江环保(三峡集团子公司
美欧车企呼吁放松稀土管制,中国新政策收得更紧 - 天天要闻

美欧车企呼吁放松稀土管制,中国新政策收得更紧

从我国密集出台的政策可以看到,稀土管制只会越来越严不会放松,西方国家和企业抱团施压,也不会动摇我们的策略。 《观察者网》的一个报道引起了我的注意,报道说我国稀土管制措施越来越严,目前对稀土....
年报“难产”、不良率2.98%!内蒙古银行新帅三把火怎么烧? - 天天要闻

年报“难产”、不良率2.98%!内蒙古银行新帅三把火怎么烧?

作者 | 谢美浴编辑 | 付影来源 | 独角金融内蒙古银行股份有限公司(以下简称“内蒙古银行”)迎来高层人事调整关键时点。近日,内蒙古银行召开党的建设工作领导小组会议,新任党委书记、董事长(提名)洪少平主持会议并作工作部署,标志着这一区域性银行正式开启新的管理周期,洪少平自2024年8月就出任内蒙古银行党委副书记...
一品红飙涨230%,医药板块估值洼地爆发!这些基金经理提前埋伏 - 天天要闻

一品红飙涨230%,医药板块估值洼地爆发!这些基金经理提前埋伏

本文来源:时代周报 作者:时浩来源:图虫6月9日,以创新药为首的多只医药股大涨,常山药业、海辰药业、睿智医药等多股涨停。创新药近期的大幅上涨源于政策密集催化。5月29日,国家药品监管局集中批准11款创新药上市,其中7款为1类创新药。此外,在美国芝加哥当地时间5月30日至6月3日举办的全球肿瘤学领域规模最大的会议—...