基准测试揭秘大模型“字数危机”:26个模型长文本生成普遍拉胯,最大输出长度过度宣传

2025年05月29日18:02:08 教育 1190

你是否曾对大语言模型(LLMs)下达过明确的“长度指令”

比如,“写一篇10,000字的长文,详细分析某个议题。”看似简单的要求,实际却往往让这些模型“力不从心”:

不是生成内容不足,就是重复啰嗦,甚至直接罢工拒绝生成。

一篇最新研究论文《LIFEBENCH: Evaluating Length Instruction Following in Large Language Models》对这一问题进行了深入探讨,提出了一个全新的基准测试集 LIFEBENCH,系统评估大语言模型在长度指令遵循方面的表现。

研究结果揭示:这些看似无所不能的模型在长度指令,特别是长文本生成任务中,表现不尽人意。当模型被明确要求生成特定长度的文本时,大多数模型表现糟糕。

接下来,让我们一起来看看这篇论文是如何揭示这些“瓶颈”的!

基准测试揭秘大模型“字数危机”:26个模型长文本生成普遍拉胯,最大输出长度过度宣传 - 天天要闻

LIFEBENCH:专注长度指令遵循的基准测试

LIFEBENCH,全称“LengthInstructionFollowingEvaluationBenchmark”,是一套专门评估大语言模型在长度指令下表现的测试集。它不仅覆盖了从短篇到长文的多种长度范围,还囊括了多种任务类型和语言,全面揭示了大模型在长度控制上的能力边界。

基准测试揭秘大模型“字数危机”:26个模型长文本生成普遍拉胯,最大输出长度过度宣传 - 天天要闻

LIFEBENCH的三大核心特性:

数据集的多样性

为了测试模型的全方位能力,LIFEBENCH设计了多维度的数据集:

任务多样性:涵盖四类自然语言生成(NLG)任务,包括问答、摘要、推理和创意生成,以全面评估模型的长度指令遵循能力。

长短结合的输入场景:测试数据既包含短输入(2000字),以评估模型在不同输入规模下的表现。

双语支持:同时支持中文和英文任务,分别从独立数据集中构建,以便分析模型是否存在语言偏差。

全面的长度范围与指令类型

LIFEBENCH是首个系统性评估模型长度指令遵循能力的基准测试,它设计了三种常见的长度控制方法:

等于(Equal To):生成长度必须等于目标长度。

不超过(At Most):生成长度不得超过目标长度。

至少(At Least):生成长度必须达到目标长度。

同时,长度输出范围覆盖从短文本(2000字)的任务,评测的全面性远超以往研究。

创新的评测指标

为了更精准地分析模型的表现,LIFEBENCH提出了两项专门指标:长度偏差(Length Deviation, LD):衡量生成文本长度与目标长度之间的差异,包括偏差方向和偏差幅度。

基准测试揭秘大模型“字数危机”:26个模型长文本生成普遍拉胯,最大输出长度过度宣传 - 天天要闻

长度评分(Length Score, LS):综合评价模型对长度指令的遵循能力,量化偏差的整体影响。

基准测试揭秘大模型“字数危机”:26个模型长文本生成普遍拉胯,最大输出长度过度宣传 - 天天要闻

相较于简单的字数匹配,这两项指标提供了更细致的分析维度。

通过上述设计,LIFEBENCH不仅覆盖了现有研究中涉及的所有长度指令评测范围,还首次系统性探索了模型在不同任务、语言和长度限制下的表现。

实验结果:大语言模型的“长度危机”

研究团队对26个主流大语言模型进行了评测,结果揭示了它们在长度指令遵循上的重大不足,尤其是在长文本生成场景下。以下是一些关键发现:

1. 总体表现:长度指令“等于”最难达标

当模型被明确要求生成特定长度的文本时,大多数模型表现糟糕。

在26个模型中,有23个模型的长度评分(LS)低于60分,只有少数模型(如o3-mini、Claude-Sonnet-Thinking和Gemini-2.5-Pro)勉强达到了75.4分、61.3分和60分。

在“不超过”(At Most)和“至少”(At Least)指令下,由于限制更宽松,模型表现显著改善。其中,有19个模型在“不超过”指令下的长度评分超过90分,而“至少”指令下也有6个模型表现优异。

2. 长文本生成:模型普遍“拉胯”

大多数模型在短文本限制下表现稳定,如o3-mini和Gemini-2.5-Pro分别获得了80分和70分以上的长度评分。随着长度限制增加,模型的表现开始下降。虽然o3-mini依然保持了较强的稳定性(评分>70),但Gemini-2.5-Pro的评分从81分骤降至37分。

在长文本生成任务中,所有模型的长度评分均显著下降,普遍低于40分,长文本生成成为模型的最大挑战。

3. 输入特性:任务与语言的双重影响

模型在不同任务中的表现差异显著。摘要任务的长度评分最低,有19个模型在这一任务中的表现显著下降,创意生成任务的评分则最高,14个模型表现优异。

几乎所有模型在中文任务中的表现均劣于英文任务。此外,模型在处理中文指令时,出现了明显的“过度生成”现象,可能反映了模型对中文数据的处理能力不足。

基准测试揭秘大模型“字数危机”:26个模型长文本生成普遍拉胯,最大输出长度过度宣传 - 天天要闻

模型“过度宣传”了它们的最大输出长度

当面对极限长度指令时(比如“至少生成32,768字”),大部分大语言模型的表现堪称“言过其实”。它们的宣传似乎暗示自己是“长篇巨制大师”,但实际生成结果却经常让人失望。研究发现:

1. 仅少数模型达标

在26个模型中,只有Claude系列和Qwen系列的7个模型能在其10%最长输出中勉强符合长度要求。如果将目标放宽到25%最长输出,情况依然不乐观——只有Qwen2.5-72B-Instruct和Qwen3-235B-A22B达到了设定的长度要求。这些模型虽然声明的最大输出长度较其他模型“低调”许多,但恰恰因为如此,它们的表现更接近实际能力,算得上“务实派”。

2. 大部分模型表现不符预期

其他模型则颇具“宣传艺术”。除Gemini-2.0-Flash和部分Qwen系列模型因最大token限制受限外,其余模型的表现远低于它们声称的“最大输出能力”。换句话说,这些模型的不足并不是因为无法达到技术上限,而是生成能力本身存在局限性。

有些模型在宣传时或许给人一种“我可以写出战争与和平”的错觉,但实际上,生成一篇“长篇朋友圈”都可能显得力不从心。

基准测试揭秘大模型“字数危机”:26个模型长文本生成普遍拉胯,最大输出长度过度宣传 - 天天要闻

模型遵循长度指令的三大“瓶颈”

基于上面的实验结果,论文深入分析了这个问题,总结出以下三大核心瓶颈:

1. 缺乏准确的长度感知能力

很多模型在“理解”目标长度上显得模糊不清:短输出任务时高估长度:目标是100字,模型可能“热情过度”写到150字。而长输出任务时反而低估长度:目标是5000字,模型却生成3000字,仿佛在说“这么长,够用了吧?”,除此之外模型还有假遵循现象:有些模型生成后自信满满地“认为自己已经完成了任务”,但实际结果却大相径庭:这种现象表明,模型更像是在“自我感觉良好”,而非真正理解并执行了指令。

基准测试揭秘大模型“字数危机”:26个模型长文本生成普遍拉胯,最大输出长度过度宣传 - 天天要闻

2. 对输入长度的敏感性

输入文本的长度对模型的表现影响很大,当输入过长时,模型就有些“晕头转向”了,特别是在长输入场景(>5000字)中。

这也解释了为什么摘要任务尤为糟糕:面对长篇输入时,模型不仅难以提取关键内容,还会生成过短或过长的内容,严重偏离指令要求。可以说,输入越长,模型越容易“迷失在海量信息中”。

3. 懒惰生成策略

当面临复杂的长文本任务时,许多模型选择了“偷懒”:

提前终止:有些模型会在未完成任务的情况下突然“省略”后续部分,例如直接插入提示“(接下来还有6000字)”,仿佛在暗示“我知道还没写完,但后面的就不写了”。

拒绝生成:在遇到超长的任务时,一些模型会直接选择放弃,例如明确表示“你的要求长度已经超过了我的能力极限,无法完成”。这种情况下,模型既没有尝试生成部分内容,也没有提供替代方案,而是干脆拒绝执行指令。

研究发现,当目标长度超过8192字时,拒绝生成的比例显著上升,所有模型中平均超过10%因这种懒惰策略而失败。显然,越复杂的任务,模型越倾向于“放弃治疗”。

基准测试揭秘大模型“字数危机”:26个模型长文本生成普遍拉胯,最大输出长度过度宣传 - 天天要闻

除了上面的三个瓶颈,有一些模型也尝试解决这个问题:

4. 动态校准的局限性:一场“低效的修补”

为了纠正长度偏差,一些推理模型尝试了动态校准:

他们会在推理过程总生成初稿后逐字统计输出长度,发现长度不符时选择重新生成,如此往复,直至接近目标长度。

虽然这个方法在短文本任务中相对有效,但是耗时耗力,因为动态校准需要耗费大量计算资源和生成token,大幅增加时间成本。而且动态校准在长文本场景中就会失效:由于校准过程过于低效,模型无法在长文本任务中维持相似的策略,最终还是无法完成指定长度的内容。

换句话说,动态校准看似“聪明”,但面对长文本时,最终还是成了一场“得不偿失”的努力。

从三大“瓶颈”到动态校准的局限性,我们可以看到:大语言模型在长度指令遵循上的表现还有很多不足。要让这些模型真正“听话”,需要在感知能力、信息处理能力和生成策略上进行全面优化。

深挖模型长度指令遵循的隐藏问题

通过更深入的分析,研究揭示了一些隐藏在模型长度指令遵循能力背后的有趣现象和改进可能。以下是关键发现:

基准测试揭秘大模型“字数危机”:26个模型长文本生成普遍拉胯,最大输出长度过度宣传 - 天天要闻

1. 长文本生成质量的“起伏之路”

模型在不同长度限制下的表现如同一条“起伏的曲线”:

短文本(512字):“还行”:生成质量较高。

中等长度(1024–2048字):“巅峰表现”:大多数模型在这个区间表现最好,输出逻辑清晰,内容质量稳定。

长文本(4096–8192字):“质量滑坡”:许多模型在此阶段开始掉链子,生成内容重复甚至拒绝生成。例如,有些模型会在生成到一半时插入“(接下来还有6000字)”,直接“摆烂”。

少数模型(如Claude-3.7-Sonnet)在超长文本上偶尔“逆风翻盘”,但这类情况较为罕见。大多数模型的长文本内容,质量随长度增加而显著下降,重复问题尤为突出。

2. 格式化输出的“叠加挑战”

在要求遵循长度指令的同时,还需要生成特定格式(如Markdown、HTML或LaTeX)时,模型的表现进一步恶化,复杂格式让模型“抓狂”:格式越复杂,模型越容易出错,甚至格式和内容双双崩溃。

长文本中的额外压力:在8192字限制下,生成一篇带复杂格式的文档对模型来说几乎是“地狱难度”。生成的内容不仅格式错误,甚至可能中途放弃,输出一堆不完整的内容片段。

3. EoS信号的“提前规划”

在长文本生成任务中,EoS(End of Sequence,生成结束信号) token的异常行为揭示出一些有趣的现象:

短文本时表现乖巧:在2000字以下的限制下,模型的EoS预测较为正常,生成内容完整且符合目标要求,EoS信号通常在内容接近目标长度时触发。

长文本时“提前规划”倾向:当目标长度达到4096或8192字时,模型的行为变得耐人寻味——它似乎在生成开始前就“打好了自己的算盘”。EoS信号的触发概率一开始就显著升高,导致生成的内容远远少于目标长度,甚至仅生成寥寥数百字便戛然而止。这种现象表明,模型在生成之前可能已经“规划”好了要写多少,而不是在生成过程中逐步调整。

这种提前终止的行为可能源于模型在长文本生成中的不确定性或自我限制,反映了其对任务长度的规划能力仍存在局限性。模型在面对超长文本指令时,可能会倾向于“保守估计”,提前结束生成以避免过度消耗计算资源或偏离任务要求。

4. 预训练与后训练的“双管齐下”

模型在长文本生成中的不足,既源于预训练的限制,也可以通过后训练优化:

预训练的“偷懒基因”:由于预训练阶段长文本数据覆盖不足,模型可能学到了一些“偷懒策略”,比如提前终止或拒绝回答,以规避长文本中的复杂逻辑和连贯性问题。

后训练的“预规划策略”:后训练提供了改进的机会。通过让模型在生成前先规划整体结构或章节大纲,生成内容更贴合长度要求,逻辑也更加清晰。例如,模型可以先生成“目录”,再逐步填充内容。这种方法显著提升了长文本的质量,且让模型对长度指令的遵循更为精准。

从生成质量的“起伏之路”到复杂格式的双重挑战,再到EoS信号的“提前规划”,这些隐藏的现象揭示了模型长度指令遵循能力的深层次不足。不过,通过扩充预训练数据和引入预规划策略,未来的模型完全有希望实现“字够了,内容也对了”。

总结

论文提出了 LIFEBENCH,用于评估大型语言模型(LLMs)在多种任务、语言和长度限制下遵循长度指令的能力。

分析表明,当前 LLMs 在长度指令执行上仍存在显著问题,尤其在长文本限制下,生成长度常低于声称的能力范围,甚至表现出“提前结束””的倾向。模型表现还受到任务类型、语言和输入长度等因素的显著影响。

这些发现揭示了 LLMs 在长度指令遵循上的关键短板,表明未来需要更优的训练策略,以及更全面的评估体系,来提升其对长度指令的执行能力和实际表现。

github仓库: https://github.com/LIFEBench/LIFEBench

huggingface链接: https://huggingface.co/datasets/LIFEBench/LIFEBench

论文地址: https://arxiv.org/abs/2505.16234

本文来自微信公众号“量子位”,作者:LIFEBench团队,36氪经授权发布。

教育分类资讯推荐

新传学投稿的硕博士们多多注意吧… - 天天要闻

新传学投稿的硕博士们多多注意吧…

随着社会问题复杂性的增加,传统单一的研究方法往往难以全面捕捉复杂问题的本质,而混合研究方法因其灵活性和综合性,正成为越来越多学者的选择。广泛应用于社会学、管理学、教育学、新传学、经济学等需要兼顾数据统计与人文理解的学科。混合研究方法,简单来
乐福谈被交易:从没想过我会成为一个数学难题,欢迎来到NBA - 天天要闻

乐福谈被交易:从没想过我会成为一个数学难题,欢迎来到NBA

北京时间7月7日,据ESPN知名记者Shams报道,洛杉矶快船、犹他爵士和迈阿密热火已经达成了一笔三方交易,诺曼-鲍威尔将前往迈阿密,约翰-科林斯加盟洛杉矶快船,而凯文-乐福、李凯尔以及2027年快船的次轮选秀权则被送往爵士。随后,凯文-乐福更新社媒谈此次交易行为,他写道:“从来没想过我会成为一个数学难题,欢迎来到NB...
学校通报“教师不满学生未填报清北”:涉事教师检讨并致歉 知情学生:可能老师一时激动说重了 - 天天要闻

学校通报“教师不满学生未填报清北”:涉事教师检讨并致歉 知情学生:可能老师一时激动说重了

近日,一张群聊截图引发网友关注。群聊信息显示,某中学一教师对该校22209班三名高分学生高考志愿填报其他高校,却未选择报考北大、清华表示不满,并称“将以失望解散此群”,这是“班主任教育的失职、职业教育的失败”。多名网友表示,上述聊天记录来自江西省瑞昌市第一中学(下称瑞昌一中)。红星新闻记者联系上该校一名...
教育部:修订教师专业标准,推进师范生培养数字化转型 - 天天要闻

教育部:修订教师专业标准,推进师范生培养数字化转型

日前,教育部办公厅印发《关于组织实施数字化赋能教师发展行动的通知》(以下简称《通知》),明确提出以提高教师数字素养为关键,以数字技术、人工智能技术融合创新应用为牵引,扩大优质资源和服务供给,开辟教师发展新赛道、塑造教师发展新优势。《通知》要求,通过六大行动推进数字赋能。一是聚焦重点环节,实施教师数字...
河北主治医师晋升副主任医师很难吗?来看看今年医生抱怨这项 - 天天要闻

河北主治医师晋升副主任医师很难吗?来看看今年医生抱怨这项

河北省晋升副主任医师到底难不难呢,其实单看晋升文件要求并不难,但还是会有医生不知道怎么准备晋升材料,比如要求的5份临床病案报告:一、提前多久准备临床病案报告适合临床病案报告提前准备的时间,通常需要结合晋升申报周期、病例累计需求以及材料打磨周
资讯 | “天花板”级别的社科夏令营又来了!有哪些新看点? - 天天要闻

资讯 | “天花板”级别的社科夏令营又来了!有哪些新看点?

当人工智能叩击思想之门,当超大城市脉动触手可及,当求知的课堂延伸向更丰富的社会角落……这个夏天,一群少年在上海社会科学馆“扬帆起航”,向辽阔的哲学社会科学天地探索。今天,第三届“大师面对面——上海新时代好少年社科夏令营”在上海社会科学馆开营
江西一高中老师怒斥学生为热门专业不报清华北大,教育局:已关注到舆情,正调查 - 天天要闻

江西一高中老师怒斥学生为热门专业不报清华北大,教育局:已关注到舆情,正调查

据贵州广播电视台报道,江西瑞昌市第一中学一老师因3名学生未填报清华北大,怒斥其“以自我为中心”“完全以一己之心填报热门专业”,认为其是“教育的失败”,“将以失望解散”该清北团队合作微信群。 网传微信群聊记录截图。图/社交媒体 7月7日下午,瑞昌一中办公室工作人员表示,目前尚未听说该事件,已将此事记下,之后...
今年中考,中等生成最大赢家?前两天还在后悔分配生吃大亏的家长,突然惊喜反转 - 天天要闻

今年中考,中等生成最大赢家?前两天还在后悔分配生吃大亏的家长,突然惊喜反转

点击上图查看详情昨晚,对于许多中考生家庭而言,是个不眠夜——许多原本成绩拔尖的学生,在录取中滑档了。一位知名重高教师昨天深夜发出一段文字,安慰那些没能考上心仪学校的孩子。大量高分考生的出现,让不少尖子生在今年中考的分配生名额录取中,没能顺利录入心仪的学校。但与此同时,也有部分中等生迎来了意外之喜。这...