2024年05月16日14:11:13 科技 1283

採訪嘉賓｜張源源百姓車聯數據科學與數據平台高級總監

編輯 | 李忠良

大模型已經融入千行百業，在這個背景下，llmops 作為一種新概念，其定義、實踐以及應對挑戰成為了關注焦點。為了深入探討 llmops 的意義和關鍵，我們採訪了百姓車聯數據科學與數據平台高級總監張源源，他分享了 llmops 在車損互助案例中的應用以及所面臨的挑戰與解決方案。以下是他的訪談實錄。

infoq：現在其實大家 mlops 都還沒有搞得特別好，馬上就出來了 llmops，當然也就沒有特別標準的定義，在您看來 llmops 如何定義？它包含哪些內容？llmops 與 mlops 您覺得兩者較大的區別是什麼？

張源源：這次 aicon 分享的第一部分，就會給出我對這部分的理解。簡單來說，如下圖所示。

● mlops 用於管理 ml 應用的全生命周期，包括數據收集和處理、模型的訓練、評估、部署和監控等，雖然會涉及跟多個工種打交道，但相關產品主要使用對象是從事 ml 演算法開發工作的人員，比如 data scientist、演算法工程師等等。

● 關於 llmops，我這裡先提供三種對 llmops 的三種視角，通過比較這三種視角，可以更好了解 llmops 是啥。

● 一種視角認為 llmops 是 mlops 在 llm 場景下的直接遷移。主要使用對象還是演算法工作人員。這種視角里認為的 llm 全生命周期更多還是強調訓練大模型的過程，對有了大模型之後如何做應用，其實覆蓋的比較少。這種視角在某些之前對 mlops 有過了解甚至投資過但對 llm 應用開發沒那麼熟悉的 vc 那裡很流行。

● 另外一個知名項目 langchain 提供了不一樣的視角，它推出了號稱是 llmops 的 langsmith，它更多關注有了大模型之後如何開發大模型應用。可以從他們的產品設計理念里非常關注實驗管理等等相關 feature，有很強的 data science 思維，但目標客戶已經不局限為演算法工作者，很多業務開發者藉助它已經能很高效的完成應用開發。

● 作為當下世界範圍內風頭最勁的 llmops 之一，也是我們國內開發者做出來的良心製作，dify 同樣更多關注有了大模型之後如何開發大模型應用的問題，但目標客戶主要是無代碼、低代碼群體。

● 通過後面這兩種視角，其實可以看出 llmops 不應只是 mlops 在 llm 場景下的直接遷移。有了這三個視角的鋪墊，其實通過直接對比 mlops 和 llmops，容易給出更符合我們認知的 llmops 定義。

○ 從覆蓋流程上說，對於 mlops 來說，開發模型和模型應用往往是等價的，模型上線往往等於模型應用上線，想像一下各種推薦演算法的開發和上線過程，但是對於 llmops 來說，開發 llm 和後續的模型應用是分離的，都不是一波人，甚至都不是一個公司的人，開發 llm 和模型應用在技術棧上迥異。

○ 從目標人群上說，對於 mlops 產品來說，因為開發模型和模型應用都是同一批人，它的目標人群就是演算法工作人員，對於 llmops 產品來說，開發模型相關的 llmops 的目標人群仍然是演算法工作人員，但模型應用相關的目標人群就豐富多樣了，除了演算法工作人員，無代碼、低代碼偏好人群、業務開發人員也是他們的目標人群。

○ 從產品形態上說，也是類似，mlops 和以開發模型為主的 llmops 產品形態主要是 sdk/library/api 等易於已有技術棧集成的方式，而模型應用相關的 llmops 增加了拖拉圈選等無代碼操作。

○ 所以基於前面分析里提到的開發 llm 和後續的模型應用是分離的事實，我們就給出了 llmops 合理的定義，即 llmops= 開發模型 llmops+ 模型應用型 llmops。開發模型類 llmops 往往有另外一個名字 ai infra，更多關注大模型訓練過程的效率、效果等問題。模型應用類 llmops 更關注有了 llm 之後，如何開發 llm 應用。而開發模型類 llmops 其實也跟前面 mlops 產品遇到的商業上的問題一樣，可能會遇到有很多定製化需求而需要用到的公司往往會自研的問題，當然因為當前相關領域人才供給嚴重不足，不是所有公司都有這樣的能力，還是有不少機會；但對於模型應用類 llmops 來說，受眾很廣，也能解決當前應用落地門檻高的痛點問題，如果能聚集起大量的開發者，有了網路效應，是有很高的商業價值的，甚至可以成為大模型的分發入口。特別需要指出的是，在接下來我分享的 context 下，我們所說的 llmops 是後者，也就是更多關注模型應用這塊的 llmops。

llmops 在車損互助行業的應用案例

infoq：在哪些環境中，車損互助使用到了大語言模型？

張源源：車損互助全流程都在使用，每一次深入跟業務側溝通需求都能感覺到可以用大語言模型解決很多業務問題，下面這張圖是我們 3 個月之前的規劃。我們也做了大量創新的工作，比如我們產品負責人之前發表過一篇我們用大模型去解決准入報價里 vin 匹配的問題，當時在圈子內引起了一個小轟動，很多人都跟我打聽是怎麼做的；

再比如，我們規划了用大模型去做智能理賠定損 agent，通過幾張照片和報案信息，就能給出來帶價格的維修單，會涉及非常多大模型能力應用的子問題，很多人都對這塊非常好奇也非常好看，這個對汽車維修行業來說帶來的影響非常大，如果能做好，預期創造的業務價值非常高；

還有，我們最近搞得 text2data 工作，如果你之前對 text2sql 有過了解，你會發現這個工作從原理上就比 text2sql 靠譜非常多，通過我們在埋點、ad hoc query 方面的落地實踐，可以說對於真實場景的取數需求來說，可以說已經完全不需要工程師介入了，我們自己的數倉工程師做完這個項目就自己說感覺數倉這個職位要不存在了。

我們最近也想到了其他更多應用場景，比如用 phone agent 去幫忙做第一輪面試篩選、服務質量反饋、用戶報案問題收集（不僅僅通過 chatbot，還是有很多用戶習慣用 phone 去報案）。

infoq：您可以分享下，您這邊採用的基礎模型是什麼嗎？

張源源：我們一直是選擇最好的模型，根據特定的場景選擇特定的模型，比如大多數時候選擇 gpt4，在代碼生成相關的使用 claude3，我們也是評測和對比了很多選擇。在現階段我們場景里，推理價格不是我們優先考慮項，效果是最優先考慮的。

infoq：在哪些場景中使用了 llm？如何引導大語言模型輸出您期望的結果？

張源源：場景如上圖，在車損互助的准入報價、理賠定損、日常運營、內部提效等等場景都有應用。在引導大模型輸出期望結果這塊，我們最重要的經驗就是確定性的交給確定性的去做（比如能調用 api 搞定的就直接調用 api，比如多用 workflow，把 zero shot 調用大模型，拆解成多個確定性節點和幾個調用大模型的節點），剩下的才交給大模型；另外一個經驗是，團隊一定要有有實驗思維、懂數據科學的人，才能把這個事情真正做好。

infoq：如何評估大模型的回應呢？是好的還是壞的？

張源源：首先去看自己的 task 是不是已經有 benchmark，比如你搞的是翻譯類任務，這種肯定有很豐富的 benchmark，直接去看模型在這些 benchmark 上的表現，或者去關注一些大模型的 technical report 以及 lmsys 等的 leaderboard，當然除了這些，還可以自己構建評測集合，讓領域專家或者大模型本身幫你標註這些結果好壞，這個時候類似 dify 這樣的 llmops 就提供了非常好的標註回復功能，能提供很好的支持。當然，這也是我上面說的，團隊一定要有有實驗思維、懂數據科學的人，他好去設計實驗 pipeline，以及評測模型和各種配置的好壞。

infoq：底層 api 模型的持續變化會對輸出結果的影響也是非常大的，如何處理這些情況呢？

張源源：無他，就是做實驗，在 benchmark 和自己的評測集合上做實驗，根據效果好壞來決定是否切換。

infoq：除去輸出的期望問題，還有哪些挑戰是您這邊遇到的？又是如何解決的？

張源源：總體來說，遇到的挑戰還好，哪裡不會學哪裡，比較享受這種遇到問題就解決問題的感覺吧，如果非要說挑戰，主要有兩個吧，一個是 rag 這部分，現在市面上的方案還沒有達到預期，核心我覺得是當前是工程的人搭起來架子，但是對效果提升有幫助的演算法相關人才跟進還不夠以及還沒有整合到主流工程里去，這部分也呼籲更多信息檢索相關的人殺入這個領域，機會很大，低處果實也很多，另外一個更大的挑戰就是一直要 catch up 最新進展，有太多東西需要深入學習和 research，時間總是不夠用的感覺。

infoq：在搭建與使用 llmops 過程中，您這邊一共有多少人參與？為團隊帶來哪些收益呢？

張源源：據我們內部初步估計，各個場景第一年創造的業務價值預計近千萬，這還是考慮我們第一年用戶量不夠大、很多合作夥伴 api 還沒有如期接入的情況，而且有很多用戶體驗方面的價值無法用金額直接衡量，我們公司是志在用 ai 作為核心競爭力在海外做一款顛覆性的車損互助產品。拿到這個業務結果，背後主要是三點，第一就是我們對大模型的認知足夠，第二就是對業務場景問題深入去思考，第三就是藉助 llmops 讓我們低成本做實驗和驗證，整個過程，核心參與人員就四五個人。

安全性和合規性問題

infoq：鑒於車損互助行業可能涉及到用戶個人信息和交易數據等敏感信息，您是如何確保模型對這些信息進行合規處理的？

張源源：我們目前的應用場景還沒有太多涉及，有一兩個場景里有這種問題，但是也不嚴重，也就是用戶上傳車損照片，這些都可以通過免責申明加上產品手段去解決，也就是說在用到大模型之前就解決掉了，盡量不在大模型這裡進行解決。

未來的發展方向和預測

infoq：隨著技術的不斷發展，您對 llmops 的未來發展有何預測？比如在模型自動化、自適應性、實時性等方面的進展。

張源源：這部分在分享里也會涉及，應用類 llmops 主要在解決降低門檻、提高可集成性、提高可觀測性、提升效果和效率這幾個問題。

● 在降低門檻方面，當前以 dify、coze 為代表的應用開發類 end2end 的 llmops 極大的降低了普通人開發 llm 應用的門檻，意義重大，甚至因為這一點，llmops 現階段的流量入口價值和分發價值都被低估了。

● 在提高可集成性方面，通過 api 把 llm 應用作為整體跟其他系統對接的方式還不夠，還需要節點級別的對接方式，workflow 的 http 節點有一定幫助，但還不夠，比如往往沒有全局 memory。當前主流 llmops 更多思考的是新創建的應用，但市面上更主流的應用場景是需要跟已有系統進行集成，提高可集成性能極大提高 llmops 的上限。

● 在提高可觀測性方面，當前 llmops 做的還不夠好，比如很多還不支持版本控制，tracing 做的也不夠好。

● 在提升效果和效率方面，當前 llmops 做的也還不夠，效果和效率其實也是在落地過程中，用戶最在意的點，但大模型的自身能力缺陷在沒有正確使用大模型經驗的普通人那裡被放大，導致大模型落地差強人意。期望 llmops 能夠對於有能力的人，提供更多集成其他優秀解決方案的機會，甚至這本身也是商業機會。對於沒有能力的人，應該提供更好的經過廣泛證明的默認選項。

嘉賓介紹

張源源：百姓車聯 ai/data 方向負責人，中國人民大學校外導師，中國商業統計學會常務理事，數據科學社區統計之都常務理事。長期跟蹤 ai/data 方向前沿技術發展，發表了多篇 ai 方向頂級 paper，有多項相關專利；在百度、阿里、百姓車聯等多家賽道內頭部公司有過行業內開創性的工作，在 ai/data 方向有超過 10 年的積累。目前正在百姓車聯帶領團隊開發車損互助行業首個基於大模型的智能車損互助系統。