阿里360月之暗面角逐长文本 记者实测国内大模型长文本哪家强

2024年03月26日17:55:13 科技 1240

大模型应用Kimi智能助手火了,随之“Kimi概念股华策影视在3月20日至22日连续三天20%的涨停板。消息面上,其运营公司月之暗面3月18日宣布Kimi长上下文窗口技术突破至200万字。

但200万字并非大语言模型的极限。3月22日,阿里云旗下的通义千问宣布“重磅升级”,向所有人免费开放1000万字的长文档处理功能。3月23日凌晨,360智脑也宣布继2月29日360AI浏览器开放100万字长文本阅读功能之后,500万字长文本处理功能也即将入驻。

巨头鏖战为何选择长文本,大模型长文本能力靠的是什么?3月24日至26日,新京报贝壳财经记者采访了多位大模型行业从业人员、学者,了解到大模型要实现长文本功能在算法和算力上都面临着挑战,但在上线长文本功能上,通过调优算法或者通过算力“大力出奇迹”甚至使用RAG(检索增强生成技术,是对大型语言模型输出进行优化的方法,使其能够在生成响应之前引用训练数据来源之外的知识库),都可以打造出该体验。

因此,贝壳财经记者对目前支持上传文档分析的大模型进行了实测,包括Kimi、智谱清言、通义千问、文心一言、讯飞星火和360浏览器AI助手,发现目前虽然许多大模型都能够分析文档,但生成的内容质量良莠不齐,上传文件大小或上传文件格式也存在限制。

为何选择长文本?长是否可保证“精”?

实际上,各个大模型对长文本的争夺很早就开始了。百川智能、零一万物等都曾以长文本领先业界为其宣传噱头,“可以上传一部《三体》(第一部20万字)”“可上传《百年孤独》(近30万字)”。

不过,在实际应用上因长文本等功能率先在关注度上“脱颖而出”的还是月之暗面旗下的Kimi智能助手。根据七麦数据,该APP在效率(免费榜)排名从1月14日的436名提升至3月19日的11名。2月份访问量达到近300万次,流量增长104.99%。分别位列AI产品国内总榜Top3和全球增速榜Top1。其还引发了“Kimi概念股”的走红。

对于长文本功能,月之暗面CEO杨植麟很早就提出了自己的设想,“通往通用人工智能AGI)的话,无损的长上下文将会是一个很关键的基础技术。历史上所有的模型架构演进,本质上都是在提升有效的、无损的上下文长度。上下文长度可能存在摩尔定律,但需要同时优化长度和无损压缩水平两个指标,才是有意义的规模化 。”

在他看来,长文本作为月之暗面“登月”的第一步,是新的计算机内存,很本质,个性化并非通过微调实现,上下文定义了个性化过程。杨植麟还认为,大模型的马拉松刚开始,接下来会有更多差异化。

对于长文本功能,中国人民大学高瓴人工智能学院长聘副教授,曾主导研发算法生成人类史上第一本人工智能诗集《阳光失了玻璃窗》的宋睿华告诉贝壳财经记者,长窗口在计算效率上有一些挑战,但技术进步也不是线性的,月之暗面解决掉一些性能上的问题,确实可以一下子做到很长。另外,和它专注做长窗口有关,其他一些模型可能觉得那么长没有太多需求。

不过,随着Kimi的持续火爆,越来越多的大模型也开始了长文本领域的“军备竞赛”:3月18日至23日,Kimi和通义千问、360AI浏览器先后宣布将支持200万、1000万以及500万字的长文本功能。其中,Kimi和360AI浏览器的相关功能处于内测和“即将推出”状态,而通义千问已经可以直接支持1000万字的文档上传了。

对此,新京报贝壳财经记者将一部400万字左右的网络小说《诡秘之主》TXT文档上传至了通义千问,并对其提出了问题,通义千问很快做出了回复,不过其内容并非百分之百准确,如其在回答中搞混了该小说中“途径”和“序列”的区别,不过对于一些重点问题还是给出了正确的回答。

阿里360月之暗面角逐长文本 记者实测国内大模型长文本哪家强 - 天天要闻

在通义千问中上传400万字文档后对其提问的回答结果截图。

而记者将同样的文档上传至Kimi智能助手和360AI浏览器,则发现该文档字数超过了Kimi的字数限制,Kimi只能阅读前4%的内容,不过其回答得更加详细。而360AI浏览器则不支持上传TXT或Word格式,只支持上传PDF格式。

阿里360月之暗面角逐长文本 记者实测国内大模型长文本哪家强 - 天天要闻

Kimi智能助手阅读部分文档后,对提问结果的回答截图。

3月24日,某大模型厂商研究机构负责人告诉新京报贝壳财经记者,长文本的挑战在算法上主要是要加大训练参数规模的问题,大模型的本质是算概率,长文本的学习主要依靠对复杂文本的概率模型变化,所以为了保证效率算法调优是关键,当然如果算法搞不定也可依靠算力大力出奇迹,因此大厂通过“堆资源”的方式很快就能挑战Kimi的长文本功能。

有AI大模型的用户表示,长文本功能在许多场景都极具吸引力,如从冗长的公司财报中找到有价值的信息、上传自己撰写的小说寻求修改意见、总结会议纪要内容等,但对于一些对内容准确度要求高的工作,大模型还只能起到辅助作用,毕竟由于AI生成本身的“幻觉”问题,难保不会出现数据错误,因此还需要人最后再检查一遍。

实测长文本能力总结书籍、财报各有千秋 遗忘问题难解

贝壳财经记者发现,目前大多数大模型已经支持文本上传功能,例如对于12万字左右的PDF格式《中国移动有限公司2023年年度报告》,文心一言、360AI浏览器、Kimi、讯飞星火均可以进行分析,而智谱清言可以上传但显示“本次回答已被终止”,通义千问也可以上传但显示“由于当前的交互模式限制,我无法直接访问或解析PDF文件内容。”

记者横向比较财报分析内容发现,当要求“根据财报文档分析中国移动业绩情况,以及其营收的主要增长点”时,大部分模型都给出了最重要的营收和净利润数据,不过在分析营收增长点时,不同的大模型侧重点也不同,如Kimi侧重于个人市场、家庭市场、政企市场的营收,文心一言和讯飞星火均侧重于无线上网业务、有线宽带业务的营收,360则泛泛提到了营收正在增长。

阿里360月之暗面角逐长文本 记者实测国内大模型长文本哪家强 - 天天要闻

文心一言对《中国移动有限公司2023年年度报告》的分析结果截图。

阿里360月之暗面角逐长文本 记者实测国内大模型长文本哪家强 - 天天要闻

Kimi对《中国移动有限公司2023年年度报告》的分析结果截图。

阿里360月之暗面角逐长文本 记者实测国内大模型长文本哪家强 - 天天要闻

360AI浏览器对《中国移动有限公司2023年年度报告》的分析结果截图。

阿里360月之暗面角逐长文本 记者实测国内大模型长文本哪家强 - 天天要闻

讯飞星火对《中国移动有限公司2023年年度报告》的分析结果截图。

而对于8万字的Word格式《牛津通识读本》,上述大模型中除360AI浏览器不支持该格式上传外,其余大模型均可以进行内容总结和分析,其中总结的内容大同小异。

阿里360月之暗面角逐长文本 记者实测国内大模型长文本哪家强 - 天天要闻

通义千问对《牛津通识读本》的解析结果截图。

阿里360月之暗面角逐长文本 记者实测国内大模型长文本哪家强 - 天天要闻

360智谱对《牛津通识读本》的解析结果截图。

对于长文本能力的测试,AI科学家、硅谷创业者贾扬清认为,从严谨科研的角度,目前大海捞针的benchmark(基准测试)已经无法准确评价算法的优势。他认为,可以写一份从1到9999的数列,并随机在中间调换两个数字的位置,然后让大模型来寻找顺序错乱的一个,“目前还没有找到稳定能成功的大模型”。

对此,贝壳财经记者准备了包含从1到999顺序排列数字的一行Word文档,并将其中569和568两个数字的顺序对调,结果发现上述大模型中,360AI浏览器和通义千问无法解析内容,讯飞星火先显示只能“数”到527后表示没有两个顺序不同的数字,而Kimi则“一口咬定”顺序不同的数字是21和22以及999和1000。只有智谱清言和文心一言给出了正确的答案。

阿里360月之暗面角逐长文本 记者实测国内大模型长文本哪家强 - 天天要闻

对大模型长文本解析能力的数字测试截图。

对于大模型的长文本能力,有致力于云厂商AI生态合作的从业者对贝壳财经记者表示,其实很多AI可以做成怎么样(包含但不限于长文本),看学术论文就能看到方法,但确实要实现方法不是人人都能做到,做到的效果也未必都一致,并不一定是越长越好,“现在宣传的长文本并不等于该公司有那么长文本的模型。对用户界面就是上传个PDF之类的,并不能看出背后的模型的能力。不排除是用RAG或其他方式打造出来的体验。”

在采访中,有多位AI从业者认为,目前,长文本能力或可以成为大模型公司吸引市场关注,赢得竞争的路径之一,不过要做好“长”“准”、成本三者之间的平衡,还需要不断摸索。

记者联系邮箱:[email protected]

新京报贝壳财经记者 罗亦丹

编辑 岳彩周

校对 柳宝庆

科技分类资讯推荐

深圳综改再升级,多个领域有重大利好丨深政一周 - 天天要闻

深圳综改再升级,多个领域有重大利好丨深政一周

本周,由中共中央办公厅、国务院办公厅印发的《关于深入推进深圳综合改革试点 深化改革创新扩大开放的意见》于6月10日正式对外发布,深圳再迎政策利好。《意见》聚焦四大领域,再推出一批改革措施、落地一批创新试验、深化一批开放举措。就在《意见》发布后的第一时间,6月11日,深圳市委常委会召开扩大会议,同时套开市委...
英特尔启动新一轮裁员 - 天天要闻

英特尔启动新一轮裁员

6月15日消息,据外媒Oregon Live报导,英特尔已经于本周向员工发出通知,将从今年7月中旬起,开始裁减位于俄勒冈州Silicon Forest园区的晶圆厂人员,首轮裁员预计将于7月底前完成,而且可能会启动第二波裁员。根据英特尔内部信件,公司正针对Intel Foundry 制造事业部进行重组,并更聚焦于工程和技术职位(例如精简中阶管理...
Synopsys重启部分中国服务,但核心EDA销售仍受阻 - 天天要闻

Synopsys重启部分中国服务,但核心EDA销售仍受阻

据路透社最新报道,美国EDA及半导体IP大厂Synopsys(新思科技)近日已经恢复了在中国的部分服务,但是核心EDA工具仍无法供应。今年5月29日,美国商务部工业和安全局(BIS)向包括Synopsys、Cadence、西门子EDA在内的EDA大厂发出了新的对中国出口管制通知函,该通知函广泛禁止这些厂商在中国销售产品和服务。Synopsys CEO Sas
“不想搞事就选英特尔!”安安稳稳的intel微星全家桶来啦! - 天天要闻

“不想搞事就选英特尔!”安安稳稳的intel微星全家桶来啦!

作为攒机圈的老炮,今天我要给各位推荐一套真正"安安稳稳"的Intel平台配置——以微星全家桶为核心,搭载最新的酷睿Ultra 7 265K处理器、微星MPG Z890 EDGE TI WiFi刀锋钛主板、MPG A1000GS PCIe5电源和MAG CORELIQUID I360 White白色水冷,再配以MAG PANO 100L PZ机箱。这套配置不仅
新能源车保险,为啥又贵又难买?车企“两面派”,保险公司只认钱 - 天天要闻

新能源车保险,为啥又贵又难买?车企“两面派”,保险公司只认钱

最近两年时间,国内新能源汽车的保有量和渗透率都呈现了明显增长的态势,很多新能源汽车,卖得又贵又好,国内市场也成为全球范围内,新能源汽车普及最为快速的市场,甚至没有之一。新能源汽车智能化程度高、费用低、性能表现优秀,成为了很多小伙伴购买新能源汽车的原因,尤其是省
22款车降价,比亚迪真绷不住了?可能在下盘大棋,两个苗头已出现 - 天天要闻

22款车降价,比亚迪真绷不住了?可能在下盘大棋,两个苗头已出现

最近一段时间,关于比亚迪的各种信息,可以说甚嚣尘上,其中首当其冲的,就是比亚迪22款新车大补贴,海鸥等车型的补贴后价格来到了5万级别,最高降价幅度超过了5万元,可以说这是2025年规模最大的一次降价,非常符合比亚迪“火力覆盖”的特性,当然也有一些车企已经跟进,
新增哨兵功能+沙地模式:坦克500 Hi4-Z第二次OTA开启推送 - 天天要闻

新增哨兵功能+沙地模式:坦克500 Hi4-Z第二次OTA开启推送

快科技6月15日消息,坦克500 Hi4-Z的第二次OTA更新已经开启推送,此次更新为车辆带来了两项重要的新功能。第一,哨兵模式和优化后的沙地模式。哨兵模式能够实现全车360度环视监控,全天候为车辆“站岗”。当有人员靠近停留或车辆检测到震动时,该模式将被触发。如果识别到低风险事件,中控屏会弹出告警动画,以此警示可疑人...
曾经爆火的黄焖鸡米饭,他经营了9年,这次的遭遇有点懵 - 天天要闻

曾经爆火的黄焖鸡米饭,他经营了9年,这次的遭遇有点懵

钱老板的黄焖鸡米饭店开在杭州余杭一个写字楼外围说是经营9年了2月中旬有人来做推广结果遇到了问题钱老板:3月1号之前入驻免配送费的,2月28号正式开始开通京东外卖,他们说会自动到账到我银行卡上,不用操作提现。记者:实际上呢?钱老板:实际上自己