DeepSeek本地RAG知識庫(28):數據分段策略/標準/父子/問答

2025年04月10日23:13:05 科技 1992

大家好,我是程序員寒山。

最近很多朋友反應,對數據分段的策略和方式還是不太清楚,今天我們這一期就專門來說說Dify裏面的幾種分段方式和對應的場景。

DeepSeek本地RAG知識庫(28):數據分段策略/標準/父子/問答 - 天天要聞

我們今天主要介紹下面這些內容: 1 向量數據庫的存儲原理:為什麼要分段? 2 Dify裏面的幾種分段方式 3 每種方式的原理和使用場景 4 選擇合適的分段提供準確率

在RAG系統中,分段策略是平衡語義精度與計算效率的關鍵樞紐,主要圍繞RAG(檢索增強生成)模塊設計,針對不同場景需求選擇合適的分塊方式和索引模式。

一、向量數據庫的存儲原理:為什麼要分段?

向量數據庫通過將文本轉化為高維向量(通常為768-1024維),在數學空間中以餘弦相似度或歐氏距離度量語義相關性。

向量化表示

  • 使用嵌入模型將文本轉換為高維向量
  • 這些向量捕獲了文本的語義特徵,語義相似的文本在向量空間中距離相近

相似度計算

  • 採用餘弦相似度、歐氏距離等度量方式
  • 計算查詢向量與存儲向量之間的距離,返回最相似的top-k結果

1.1 文本長度對向量表示的影響

  1. 信息稀釋效應
  • 長文本包含過多信息,導致關鍵語義被稀釋
  • 向量表示趨向於"平均化",失去對核心概念的精準捕捉
  1. 注意力機制局限
  • 現代嵌入模型的注意力機制對長序列處理能力有限
  • 超過模型最佳處理長度(如512token)後表示質量下降
  1. 實證研究顯示
  • 文本長度在50-300詞時向量表示最有效
  • 超過500詞後相似度計算的準確性顯著降低

1.2 分段(Chunking)策略的重要性

為解決長文本表示問題,RAG系統普遍採用分段策略:

  1. 固定長度分塊
  • 簡單按字符/詞數分割(如256token一段)
  • 優點:實現簡單;缺點:可能切斷語義連貫性
  1. 基於內容的分段
  • 按段落、標題等自然邊界分割
  • 使用文本結構分析算法識別最佳分割點
  1. 重疊分塊
  • 相鄰分塊保留部分重疊內容(如10%重疊)
  • 減少邊界信息丟失,提高檢索連貫性
  1. 層次化分塊
  • 多粒度分塊(小節、段落、句子級別)
  • 適應不同粒度的查詢需求

二、Dify裏面的幾種分段方式

2.1 普通分塊(標準分塊)

實現方式
通過固定長度的文本塊分割(如每段500字),結合Embedding模型將文本轉換為向量。

DeepSeek本地RAG知識庫(28):數據分段策略/標準/父子/問答 - 天天要聞

優點

  1. 靈活性高:適用於通用文檔處理,支持多源數據(PDF、Word、網頁等);
  2. 檢索效率平衡:混合檢索結合向量與關鍵字匹配,召回率提升30%;

缺點

  1. 上下文割裂:固定長度分塊可能導致語義不連貫;
  2. 資源消耗較大:高質量模式依賴Embedding模型,需較高算力。

適用場景

  • 通用知識庫構建(如企業文檔管理);
  • 需要快速響應混合檢索的問答系統。

2.2 問答分塊(QA分塊)

實現方式
通過LLM為每段文本生成問答對(Q&A pairs),檢索時匹配用戶問題與預生成的相似問題,返回對應答案段落。在問答模式下會自動調用LLM生成問答對,並優化檢索流程。

DeepSeek本地RAG知識庫(28):數據分段策略/標準/父子/問答 - 天天要聞

優點

  1. 精準匹配:通過語義相似度直接匹配問題,減少噪聲干擾;
  2. 用戶體驗優化:適用於FAQ場景,回答更簡潔直接;
  3. 支持複雜查詢:通過QA對覆蓋長尾問題。

缺點

  1. 生成成本高:需額外計算資源生成問答對;
  2. 依賴模型能力:問答對質量受LLM生成能力限制。

適用場景

  • 客服系統與FAQ庫;
  • 需要高精度問答的垂直領域(如法律、醫療)。

2.3 父子策略/層級分塊

實現方式
通過人工干預或規則定義分塊層級,例如將文檔按章節劃分父塊,再對每章內容進行子塊分割。允許用戶手動調整分塊大小和清洗規則。

DeepSeek本地RAG知識庫(28):數據分段策略/標準/父子/問答 - 天天要聞

優點

  1. 語義連貫性:層級結構保留上下文關係;
  2. 靈活可控:適用於結構化文檔(如技術手冊、合同)。

缺點

  1. 開發成本高:需人工標註或規則設計;
  2. 擴展性差:難以適應非結構化數據。

適用場景

  • 法律合同解析(按條款分層);
  • 學術論文檢索(按摘要、正文、參考文獻分級)。

2.4父子策略/全文分塊

實現方式
通過人工干預或規則定義分塊層級,例如將全文文檔做為父塊,再對內容進行子塊分割。允許用戶手動調整分塊大小和清洗規則。

DeepSeek本地RAG知識庫(28):數據分段策略/標準/父子/問答 - 天天要聞

優點

  1. 語義連貫性:文檔內容結構全部保留;
  2. 靈活可控:適用於論文、作文等文章類。

缺點

  1. 開發成本高:檢索速度和成功率較低;
  2. 擴展性差:難以適應非結構化數據。

適用場景

  • 文章的全參考;
  • 學術論文全文參考。

通過靈活組合分塊策略與索引模式,能夠覆蓋從低成本快速響應到高精度複雜檢索的全場景需求,大家可根據具體業務需求選擇最優方案。

有問題可以留言給我。

科技分類資訊推薦

機器狗Go1存在後門安全漏洞,宇樹科技回應;OpenAI重大變化!任命了一位新CEO,奧特曼讓出部分職權丨AI周報 - 天天要聞

機器狗Go1存在後門安全漏洞,宇樹科技回應;OpenAI重大變化!任命了一位新CEO,奧特曼讓出部分職權丨AI周報

全球AI產業周報為你精選過去一周(5.3-5.9)最值得關注的AI新聞和國內外熱門AI投融資事件,幫助大家及時了解全球AI市場動向。本周AI熱點資訊國內大事宇樹科技回應機器狗Go1存在後門漏洞記者了解到,針對此前一些博主聲稱「宇樹科技的Go1機器狗存在後門漏洞」的情況,宇樹科技公布了調查結果。宇樹科技表示,黑客非法獲取了...
2025一季度算力領域增長最快的10家公司 - 天天要聞

2025一季度算力領域增長最快的10家公司

近日,據2025年5月相關消息,一季度算力增長較快的公司有縱橫通信、邁信林、鴻博股份、恆潤股份、康盛股份、歌華有線、全志科技、協創數據、青雲科技-U、潤建股份等。
「轉人工」咋就這麼難? - 天天要聞

「轉人工」咋就這麼難?

真正的智能化,應該是技術與人性化服務的有機結合,任何時候都不能偏離「以人為本」的初衷。客服的核心是「服務」,而非「應付」。「您好,有什麼可以幫您?」「轉人工服務。」「人工座席繁忙,請稍後再撥……」轉人工,轉人工,轉人工……你是否也常被智能客
劉強東繼外賣後又入局的士,註冊新商標 - 天天要聞

劉強東繼外賣後又入局的士,註冊新商標

5月6日,天眼查財產線索信息顯示,京東集團旗下子公司北京京東叄佰陸拾度電子商務有限公司,申請註冊多枚「Joyrobotaxi」商標,國際分類涵蓋運輸工具、科學儀器、運輸貯藏等核心領域,當前商標狀態均為等待實質審查。這一動作被業界普遍解讀為,
周單品銷量榜變天,小米、華為真長國人志氣 - 天天要聞

周單品銷量榜變天,小米、華為真長國人志氣

雖然現在蘋果在國內的銷量排名第六,但論單品銷量誰也不是iPhone 16系列的對手。每次周單品暢銷榜發佈,排名前三的機型都被iPhone 16系列霸佔。面對這種情況真是讓人無可奈何。但是W18周這種情況沒有再出來,我們先來看一下榜單再給大家
蘋果宣布降價!最高便宜超1440元 - 天天要聞

蘋果宣布降價!最高便宜超1440元

《科創板日報》5月10日訊,蘋果向渠道商下發了調價通知,這也是蘋果首次在周六宣布調價。蘋果iPhone 16 Pro Max 所有容量版本降價160美元,(摺合人民幣1313.06元);而 iPhone 16 Pro的128GB版本降價176美元,(摺合人民幣1445.27元),其他版本同樣降價160美元。今年的「6·18」活動將於5月13日開始,因此有渠道
2024年A股年報披露上市粵企韌性凸顯,研發投入成增長新引擎 - 天天要聞

2024年A股年報披露上市粵企韌性凸顯,研發投入成增長新引擎

2024年A股上市公司年報披露日前落下帷幕,面對複雜多變的國內外環境,A股上市公司營收與凈利潤增速小幅回落,但盈利面有所優化:74.55%的公司實現盈利,63.78%的公司凈利潤同比正增長,盈利企業數量與利潤增長比例均較上年提升。這一表現折射出中國經濟的韌性——企業通過降本增效、技術創新等方式改善盈利情況。作為上市公...
日本松下集團宣布將全球裁員1萬人;蘋果首款摺疊屏iPhone關鍵部件已送樣|Do早報 - 天天要聞

日本松下集團宣布將全球裁員1萬人;蘋果首款摺疊屏iPhone關鍵部件已送樣|Do早報

【供應鏈公司:蘋果首款摺疊屏iPhone關鍵部件已送樣】有媒體從供應鏈公司人士處獲悉,蘋果給供應商提供的出貨目標指引為2026年下半年推出首款摺疊屏手機,是一款「大摺疊屏iPhone」。該供應鏈公司是蘋果手機的多個零部件供應商。該供應鏈公司表示,希望進入摺疊屏iPhone的關鍵部件供應商名單,近期相關部件已送樣測試;但要...