2024年03月26日17:55:13 科技 1240

大模型应用Kimi智能助手火了，随之“Kimi概念股”华策影视在3月20日至22日连续三天20%的涨停板。消息面上，其运营公司月之暗面3月18日宣布Kimi长上下文窗口技术突破至200万字。

但200万字并非大语言模型的极限。3月22日，阿里云旗下的通义千问宣布“重磅升级”，向所有人免费开放1000万字的长文档处理功能。3月23日凌晨，360智脑也宣布继2月29日360AI浏览器开放100万字长文本阅读功能之后，500万字长文本处理功能也即将入驻。

巨头鏖战为何选择长文本，大模型长文本能力靠的是什么？3月24日至26日，新京报贝壳财经记者采访了多位大模型行业从业人员、学者，了解到大模型要实现长文本功能在算法和算力上都面临着挑战，但在上线长文本功能上，通过调优算法或者通过算力“大力出奇迹”甚至使用RAG（检索增强生成技术，是对大型语言模型输出进行优化的方法，使其能够在生成响应之前引用训练数据来源之外的知识库），都可以打造出该体验。

因此，贝壳财经记者对目前支持上传文档分析的大模型进行了实测，包括Kimi、智谱清言、通义千问、文心一言、讯飞星火和360浏览器AI助手，发现目前虽然许多大模型都能够分析文档，但生成的内容质量良莠不齐，上传文件大小或上传文件格式也存在限制。

为何选择长文本？长是否可保证“精”？

实际上，各个大模型对长文本的争夺很早就开始了。百川智能、零一万物等都曾以长文本领先业界为其宣传噱头，“可以上传一部《三体》（第一部20万字）”“可上传《百年孤独》（近30万字）”。

不过，在实际应用上因长文本等功能率先在关注度上“脱颖而出”的还是月之暗面旗下的Kimi智能助手。根据七麦数据，该APP在效率（免费榜）排名从1月14日的436名提升至3月19日的11名。2月份访问量达到近300万次，流量增长104.99%。分别位列AI产品国内总榜Top3和全球增速榜Top1。其还引发了“Kimi概念股”的走红。

对于长文本功能，月之暗面CEO杨植麟很早就提出了自己的设想，“通往通用人工智能（AGI）的话，无损的长上下文将会是一个很关键的基础技术。历史上所有的模型架构演进，本质上都是在提升有效的、无损的上下文长度。上下文长度可能存在摩尔定律，但需要同时优化长度和无损压缩水平两个指标，才是有意义的规模化。”

在他看来，长文本作为月之暗面“登月”的第一步，是新的计算机内存，很本质，个性化并非通过微调实现，上下文定义了个性化过程。杨植麟还认为，大模型的马拉松刚开始，接下来会有更多差异化。

对于长文本功能，中国人民大学高瓴人工智能学院长聘副教授，曾主导研发算法生成人类史上第一本人工智能诗集《阳光失了玻璃窗》的宋睿华告诉贝壳财经记者，长窗口在计算效率上有一些挑战，但技术进步也不是线性的，月之暗面解决掉一些性能上的问题，确实可以一下子做到很长。另外，和它专注做长窗口有关，其他一些模型可能觉得那么长没有太多需求。

不过，随着Kimi的持续火爆，越来越多的大模型也开始了长文本领域的“军备竞赛”：3月18日至23日，Kimi和通义千问、360AI浏览器先后宣布将支持200万、1000万以及500万字的长文本功能。其中，Kimi和360AI浏览器的相关功能处于内测和“即将推出”状态，而通义千问已经可以直接支持1000万字的文档上传了。

对此，新京报贝壳财经记者将一部400万字左右的网络小说《诡秘之主》TXT文档上传至了通义千问，并对其提出了问题，通义千问很快做出了回复，不过其内容并非百分之百准确，如其在回答中搞混了该小说中“途径”和“序列”的区别，不过对于一些重点问题还是给出了正确的回答。

在通义千问中上传400万字文档后对其提问的回答结果截图。

而记者将同样的文档上传至Kimi智能助手和360AI浏览器，则发现该文档字数超过了Kimi的字数限制，Kimi只能阅读前4%的内容，不过其回答得更加详细。而360AI浏览器则不支持上传TXT或Word格式，只支持上传PDF格式。

Kimi智能助手阅读部分文档后，对提问结果的回答截图。

3月24日，某大模型厂商研究机构负责人告诉新京报贝壳财经记者，长文本的挑战在算法上主要是要加大训练参数规模的问题，大模型的本质是算概率，长文本的学习主要依靠对复杂文本的概率模型变化，所以为了保证效率算法调优是关键，当然如果算法搞不定也可依靠算力大力出奇迹，因此大厂通过“堆资源”的方式很快就能挑战Kimi的长文本功能。

有AI大模型的用户表示，长文本功能在许多场景都极具吸引力，如从冗长的公司财报中找到有价值的信息、上传自己撰写的小说寻求修改意见、总结会议纪要内容等，但对于一些对内容准确度要求高的工作，大模型还只能起到辅助作用，毕竟由于AI生成本身的“幻觉”问题，难保不会出现数据错误，因此还需要人最后再检查一遍。

实测长文本能力：总结书籍、财报各有千秋遗忘问题难解

贝壳财经记者发现，目前大多数大模型已经支持文本上传功能，例如对于12万字左右的PDF格式《中国移动有限公司2023年年度报告》，文心一言、360AI浏览器、Kimi、讯飞星火均可以进行分析，而智谱清言可以上传但显示“本次回答已被终止”，通义千问也可以上传但显示“由于当前的交互模式限制，我无法直接访问或解析PDF文件内容。”

记者横向比较财报分析内容发现，当要求“根据财报文档分析中国移动业绩情况，以及其营收的主要增长点”时，大部分模型都给出了最重要的营收和净利润数据，不过在分析营收增长点时，不同的大模型侧重点也不同，如Kimi侧重于个人市场、家庭市场、政企市场的营收，文心一言和讯飞星火均侧重于无线上网业务、有线宽带业务的营收，360则泛泛提到了营收正在增长。

文心一言对《中国移动有限公司2023年年度报告》的分析结果截图。

Kimi对《中国移动有限公司2023年年度报告》的分析结果截图。

360AI浏览器对《中国移动有限公司2023年年度报告》的分析结果截图。

讯飞星火对《中国移动有限公司2023年年度报告》的分析结果截图。

而对于8万字的Word格式《牛津通识读本》，上述大模型中除360AI浏览器不支持该格式上传外，其余大模型均可以进行内容总结和分析，其中总结的内容大同小异。

通义千问对《牛津通识读本》的解析结果截图。

360智谱对《牛津通识读本》的解析结果截图。

对于长文本能力的测试，AI科学家、硅谷创业者贾扬清认为，从严谨科研的角度，目前大海捞针的benchmark（基准测试）已经无法准确评价算法的优势。他认为，可以写一份从1到9999的数列，并随机在中间调换两个数字的位置，然后让大模型来寻找顺序错乱的一个，“目前还没有找到稳定能成功的大模型”。

对此，贝壳财经记者准备了包含从1到999顺序排列数字的一行Word文档，并将其中569和568两个数字的顺序对调，结果发现上述大模型中，360AI浏览器和通义千问无法解析内容，讯飞星火先显示只能“数”到527后表示没有两个顺序不同的数字，而Kimi则“一口咬定”顺序不同的数字是21和22以及999和1000。只有智谱清言和文心一言给出了正确的答案。

对大模型长文本解析能力的数字测试截图。

对于大模型的长文本能力，有致力于云厂商AI生态合作的从业者对贝壳财经记者表示，其实很多AI可以做成怎么样（包含但不限于长文本），看学术论文就能看到方法，但确实要实现方法不是人人都能做到，做到的效果也未必都一致，并不一定是越长越好，“现在宣传的长文本并不等于该公司有那么长文本的模型。对用户界面就是上传个PDF之类的，并不能看出背后的模型的能力。不排除是用RAG或其他方式打造出来的体验。”

在采访中，有多位AI从业者认为，目前，长文本能力或可以成为大模型公司吸引市场关注，赢得竞争的路径之一，不过要做好“长”“准”、成本三者之间的平衡，还需要不断摸索。

记者联系邮箱：[email protected]

新京报贝壳财经记者罗亦丹

编辑岳彩周

校对柳宝庆