4人团队,如何用大模型创造近千万业务价值?

2024年05月16日14:11:13 科技 1283
4人团队,如何用大模型创造近千万业务价值? - 天天要闻

采访嘉宾|张源源 百姓车联数据科学与数据平台高级总监
编辑 | 李忠良

大模型已经融入千行百业,在这个背景下,llmops 作为一种新概念,其定义、实践以及应对挑战成为了关注焦点。为了深入探讨 llmops 的意义和关键,我们采访了百姓车联数据科学与数据平台高级总监张源源,他分享了 llmops 在车损互助案例中的应用以及所面临的挑战与解决方案。以下是他的访谈实录

infoq:现在其实大家 mlops 都还没有搞得特别好,马上就出来了 llmops,当然也就没有特别标准的定义,在您看来 llmops 如何定义?它包含哪些内容?llmops 与 mlops 您觉得两者较大的区别是什么?

张源源:这次 aicon 分享的第一部分,就会给出我对这部分的理解。简单来说,如下图所示。

4人团队,如何用大模型创造近千万业务价值? - 天天要闻

● mlops 用于管理 ml 应用的全生命周期,包括数据收集和处理、模型的训练、评估、部署和监控等,虽然会涉及跟多个工种打交道,但相关产品主要使用对象是从事 ml 算法开发工作的人员,比如 data scientist、算法工程师等等。

● 关于 llmops,我这里先提供三种对 llmops 的三种视角,通过比较这三种视角,可以更好了解 llmops 是啥。

● 一种视角认为 llmops 是 mlops 在 llm 场景下的直接迁移。主要使用对象还是算法工作人员。这种视角里认为的 llm 全生命周期更多还是强调训练大模型的过程,对有了大模型之后如何做应用,其实覆盖的比较少。这种视角在某些之前对 mlops 有过了解甚至投资过但对 llm 应用开发没那么熟悉的 vc 那里很流行。

● 另外一个知名项目 langchain 提供了不一样的视角,它推出了号称是 llmops 的 langsmith,它更多关注有了大模型之后如何开发大模型应用。可以从他们的产品设计理念里非常关注实验管理等等相关 feature,有很强的 data science 思维,但目标客户已经不局限为算法工作者,很多业务开发者借助它已经能很高效的完成应用开发。

● 作为当下世界范围内风头最劲的 llmops 之一,也是我们国内开发者做出来的良心制作,dify 同样更多关注有了大模型之后如何开发大模型应用的问题,但目标客户主要是无代码、低代码群体。

● 通过后面这两种视角,其实可以看出 llmops 不应只是 mlops 在 llm 场景下的直接迁移。有了这三个视角的铺垫,其实通过直接对比 mlops 和 llmops,容易给出更符合我们认知的 llmops 定义。

    ○ 从覆盖流程上说,对于 mlops 来说,开发模型和模型应用往往是等价的,模型上线往往等于模型应用上线,想象一下各种推荐算法的开发和上线过程,但是对于 llmops 来说,开发 llm 和后续的模型应用是分离的,都不是一波人,甚至都不是一个公司的人,开发 llm 和模型应用在技术栈上迥异。 

    ○ 从目标人群上说,对于 mlops 产品来说,因为开发模型和模型应用都是同一批人,它的目标人群就是算法工作人员,对于 llmops 产品来说,开发模型相关的 llmops 的目标人群仍然是算法工作人员,但模型应用相关的目标人群就丰富多样了,除了算法工作人员,无代码、低代码偏好人群、业务开发人员也是他们的目标人群。  

    ○ 从产品形态上说,也是类似,mlops 和以开发模型为主的 llmops 产品形态主要是 sdk/library/api 等易于已有技术栈集成的方式,而模型应用相关的 llmops 增加了拖拉圈选等无代码操作。 

    ○ 所以基于前面分析里提到的开发 llm 和后续的模型应用是分离的事实,我们就给出了 llmops 合理的定义,即 llmops= 开发模型 llmops+ 模型应用型 llmops。开发模型类 llmops 往往有另外一个名字 ai infra,更多关注大模型训练过程的效率、效果等问题。模型应用类 llmops 更关注有了 llm 之后,如何开发 llm 应用。而开发模型类 llmops 其实也跟前面 mlops 产品遇到的商业上的问题一样,可能会遇到有很多定制化需求而需要用到的公司往往会自研的问题,当然因为当前相关领域人才供给严重不足,不是所有公司都有这样的能力,还是有不少机会;但对于模型应用类 llmops 来说,受众很广,也能解决当前应用落地门槛高的痛点问题,如果能聚集起大量的开发者,有了网络效应,是有很高的商业价值的,甚至可以成为大模型的分发入口。特别需要指出的是,在接下来我分享的 context 下,我们所说的 llmops 是后者,也就是更多关注模型应用这块的 llmops。

llmops 在车损互助行业的应用案例

infoq:在哪些环境中,车损互助使用到了大语言模型?

张源源:车损互助全流程都在使用,每一次深入跟业务侧沟通需求都能感觉到可以用大语言模型解决很多业务问题,下面这张图是我们 3 个月之前的规划。我们也做了大量创新的工作,比如我们产品负责人之前发表过一篇我们用大模型去解决准入报价里 vin 匹配的问题,当时在圈子内引起了一个小轰动,很多人都跟我打听是怎么做的;

再比如,我们规划了用大模型去做智能理赔定损 agent,通过几张照片和报案信息,就能给出来带价格的维修单,会涉及非常多大模型能力应用的子问题,很多人都对这块非常好奇也非常好看,这个对汽车维修行业来说带来的影响非常大,如果能做好,预期创造的业务价值非常高;

还有,我们最近搞得 text2data 工作,如果你之前对 text2sql 有过了解,你会发现这个工作从原理上就比 text2sql 靠谱非常多,通过我们在埋点、ad hoc query 方面的落地实践,可以说对于真实场景的取数需求来说,可以说已经完全不需要工程师介入了,我们自己的数仓工程师做完这个项目就自己说感觉数仓这个职位要不存在了。

我们最近也想到了其他更多应用场景,比如用 phone agent 去帮忙做第一轮面试筛选、服务质量反馈、用户报案问题收集(不仅仅通过 chatbot,还是有很多用户习惯用 phone 去报案)。

4人团队,如何用大模型创造近千万业务价值? - 天天要闻

infoq:您可以分享下,您这边采用的基础模型是什么吗?

张源源:我们一直是选择最好的模型,根据特定的场景选择特定的模型,比如大多数时候选择 gpt4,在代码生成相关的使用 claude3,我们也是评测和对比了很多选择。在现阶段我们场景里,推理价格不是我们优先考虑项,效果是最优先考虑的。

infoq:在哪些场景中使用了 llm?如何引导大语言模型输出您期望的结果?

张源源:场景如上图,在车损互助的准入报价、理赔定损、日常运营、内部提效等等场景都有应用。在引导大模型输出期望结果这块,我们最重要的经验就是确定性的交给确定性的去做(比如能调用 api 搞定的就直接调用 api,比如多用 workflow,把 zero shot 调用大模型,拆解成多个确定性节点和几个调用大模型的节点),剩下的才交给大模型;另外一个经验是,团队一定要有有实验思维、懂数据科学的人,才能把这个事情真正做好。

infoq:如何评估大模型的回应呢?是好的还是坏的?

张源源:首先去看自己的 task 是不是已经有 benchmark,比如你搞的是翻译类任务,这种肯定有很丰富的 benchmark,直接去看模型在这些 benchmark 上的表现,或者去关注一些大模型的 technical report 以及 lmsys 等的 leaderboard,当然除了这些,还可以自己构建评测集合,让领域专家或者大模型本身帮你标注这些结果好坏,这个时候类似 dify 这样的 llmops 就提供了非常好的标注回复功能,能提供很好的支持。当然,这也是我上面说的,团队一定要有有实验思维、懂数据科学的人,他好去设计实验 pipeline,以及评测模型和各种配置的好坏。

infoq:底层 api 模型的持续变化会对输出结果的影响也是非常大的,如何处理这些情况呢?

张源源:无他,就是做实验,在 benchmark 和自己的评测集合上做实验,根据效果好坏来决定是否切换。

infoq:除去输出的期望问题,还有哪些挑战是您这边遇到的?又是如何解决的?
张源源:总体来说,遇到的挑战还好,哪里不会学哪里,比较享受这种遇到问题就解决问题的感觉吧,如果非要说挑战,主要有两个吧,一个是 rag 这部分,现在市面上的方案还没有达到预期,核心我觉得是当前是工程的人搭起来架子,但是对效果提升有帮助的算法相关人才跟进还不够以及还没有整合到主流工程里去,这部分也呼吁更多信息检索相关的人杀入这个领域,机会很大,低处果实也很多,另外一个更大的挑战就是一直要 catch up 最新进展,有太多东西需要深入学习和 research,时间总是不够用的感觉。
infoq:在搭建与使用 llmops 过程中,您这边一共有多少人参与?为团队带来哪些收益呢?

张源源:据我们内部初步估计,各个场景第一年创造的业务价值预计近千万,这还是考虑我们第一年用户量不够大、很多合作伙伴 api 还没有如期接入的情况,而且有很多用户体验方面的价值无法用金额直接衡量,我们公司是志在用 ai 作为核心竞争力在海外做一款颠覆性的车损互助产品。拿到这个业务结果,背后主要是三点,第一就是我们对大模型的认知足够,第二就是对业务场景问题深入去思考,第三就是借助 llmops 让我们低成本做实验和验证,整个过程,核心参与人员就四五个人。

安全性和合规性问题

infoq:鉴于车损互助行业可能涉及到用户个人信息和交易数据等敏感信息,您是如何确保模型对这些信息进行合规处理的?

张源源:我们目前的应用场景还没有太多涉及,有一两个场景里有这种问题,但是也不严重,也就是用户上传车损照片,这些都可以通过免责申明加上产品手段去解决,也就是说在用到大模型之前就解决掉了,尽量不在大模型这里进行解决。

未来的发展方向和预测

infoq:随着技术的不断发展,您对 llmops 的未来发展有何预测?比如在模型自动化、自适应性、实时性等方面的进展。

张源源:这部分在分享里也会涉及,应用类 llmops 主要在解决降低门槛、提高可集成性、提高可观测性、提升效果和效率这几个问题。

● 在降低门槛方面,当前以 dify、coze 为代表的应用开发类 end2end 的 llmops 极大的降低了普通人开发 llm 应用的门槛,意义重大,甚至因为这一点,llmops 现阶段的流量入口价值和分发价值都被低估了。

● 在提高可集成性方面,通过 api 把 llm 应用作为整体跟其他系统对接的方式还不够,还需要节点级别的对接方式,workflow 的 http 节点有一定帮助,但还不够,比如往往没有全局 memory。当前主流 llmops 更多思考的是新创建的应用,但市面上更主流的应用场景是需要跟已有系统进行集成,提高可集成性能极大提高 llmops 的上限。

● 在提高可观测性方面,当前 llmops 做的还不够好,比如很多还不支持版本控制,tracing 做的也不够好。

● 在提升效果和效率方面,当前 llmops 做的也还不够,效果和效率其实也是在落地过程中,用户最在意的点,但大模型的自身能力缺陷在没有正确使用大模型经验的普通人那里被放大,导致大模型落地差强人意。期望 llmops 能够对于有能力的人,提供更多集成其他优秀解决方案的机会,甚至这本身也是商业机会。对于没有能力的人,应该提供更好的经过广泛证明的默认选项。

 嘉宾介绍

张源源:百姓车联 ai/data 方向负责人,中国人民大学校外导师,中国商业统计学会常务理事,数据科学社区统计之都常务理事。长期跟踪 ai/data 方向前沿技术发展,发表了多篇 ai 方向顶级 paper,有多项相关专利;在百度、阿里、百姓车联等多家赛道内头部公司有过行业内开创性的工作,在 ai/data 方向有超过 10 年的积累。目前正在百姓车联带领团队开发车损互助行业首个基于大模型的智能车损互助系统。

科技分类资讯推荐

最新消息!她已离职!曾凌晨发文道歉 - 天天要闻

最新消息!她已离职!曾凌晨发文道歉

本月初,百度副总裁璩静在短视频平台上发布的几条出镜视频引发网友关注,特别是其提到“员工闹分手提离职我秒批”等职场话题引发网友质疑,一度登上微博热搜。
淘宝取消“618”预售机制后,京东宣布“现货开卖” - 天天要闻

淘宝取消“618”预售机制后,京东宣布“现货开卖”

继5月7日天猫宣布取消“618”预售机制后,5月8日,京东也正式宣布“现货开卖”。今年京东618将于5月31日晚8点全面开启。据了解,现货开卖的同时,京东还将同步推出百亿补贴日活动。在6月2日、6月3日、6月8日,还将先后推出9.
细思极恐网络暴力和群殴 - 天天要闻

细思极恐网络暴力和群殴

互联网高速发展利用时代踏实做事和说实话的人都不被人待见,时时刻刻遭受网络暴力,声讨,群殴,格力电器董明珠,踏踏实实做企业,创税收,促进就业,,为国家为人民奉献大半辈子青春,心血, 汗水,本该退休安享晚年,侍弄儿孙遗憾找不到合适放心接班人,七
探秘vivo影像之美,与X系列技术沟通会共同见证卓越蓝图 - 天天要闻

探秘vivo影像之美,与X系列技术沟通会共同见证卓越蓝图

前段时间的vivo X系列新品发布让我们记忆深刻,而刚刚结束结束的“影像新蓝图X系列技术沟通会”也十分精彩,这次沟通会不仅告诉了大家vivo在影像领域的最新成果,也让粉丝们对vivo影像背后的故事有更多了解,在vivo影像的发展历程中可以分成两方面,一方面,vivo通过自主研发,不断提升自身的影像技术实力,另一方面,vivo...
华为再次亮剑,鸿蒙系统亮点多多 - 天天要闻

华为再次亮剑,鸿蒙系统亮点多多

5月15日,华为夏季全场景新品发布会简直是一场视觉与科技的盛宴,看得我热血沸腾!不得不说,华为这次真的是大招频出,新品多到让人眼花缭乱!先说说那个华为MatePad 11.5 ” S吧,一亮相就让人眼前一亮!它的设计简约而不失时尚,屏幕清晰得让人仿佛置身其中。
【新机】升级了个寂寞?蓝厂新机发布 - 天天要闻

【新机】升级了个寂寞?蓝厂新机发布

昨天晚上蓝厂发布了新机iQOO Neo9s Pro,机子采用了6.78英寸1.5K 8T LTPO直面屏,支持144Hz刷新率。搭载天玑9300+,前置1600万像素,后置IMX920主摄+5000万超广角。电池容量5160mAh,支持120W快充。新增白色版本,用上了白色玻璃后盖,颜值确实提升了不少。不过还是塑料中框+短焦指纹。12+256GB 2699元
AI Agent在哪些行业领域会产生影响? - 天天要闻

AI Agent在哪些行业领域会产生影响?

在如今飞速前进的科技浪潮中,人工智能(AI)技术的创新正以前所未有的速度重塑我们的生活和工作的每一个角落。在这一浪潮中,Agent AI智能体以其卓越的能力脱颖而出,它通过模拟人类智能行为,能够胜任一系列复杂任务,并在多个领域展现出了其无法替代的价值。