DeepSeek本地RAG知识库(28):数据分段策略/标准/父子/问答

2025年04月10日23:13:05 科技 1992

大家好,我是程序员寒山。

最近很多朋友反应,对数据分段的策略和方式还是不太清楚,今天我们这一期就专门来说说Dify里面的几种分段方式和对应的场景。

DeepSeek本地RAG知识库(28):数据分段策略/标准/父子/问答 - 天天要闻

我们今天主要介绍下面这些内容: 1 向量数据库的存储原理:为什么要分段? 2 Dify里面的几种分段方式 3 每种方式的原理和使用场景 4 选择合适的分段提供准确率

在RAG系统中,分段策略是平衡语义精度与计算效率的关键枢纽,主要围绕RAG(检索增强生成)模块设计,针对不同场景需求选择合适的分块方式和索引模式。

一、向量数据库的存储原理:为什么要分段?

向量数据库通过将文本转化为高维向量(通常为768-1024维),在数学空间中以余弦相似度或欧氏距离度量语义相关性。

向量化表示

  • 使用嵌入模型将文本转换为高维向量
  • 这些向量捕获了文本的语义特征,语义相似的文本在向量空间中距离相近

相似度计算

  • 采用余弦相似度、欧氏距离等度量方式
  • 计算查询向量与存储向量之间的距离,返回最相似的top-k结果

1.1 文本长度对向量表示的影响

  1. 信息稀释效应
  • 长文本包含过多信息,导致关键语义被稀释
  • 向量表示趋向于"平均化",失去对核心概念的精准捕捉
  1. 注意力机制局限
  • 现代嵌入模型的注意力机制对长序列处理能力有限
  • 超过模型最佳处理长度(如512token)后表示质量下降
  1. 实证研究显示
  • 文本长度在50-300词时向量表示最有效
  • 超过500词后相似度计算的准确性显著降低

1.2 分段(Chunking)策略的重要性

为解决长文本表示问题,RAG系统普遍采用分段策略:

  1. 固定长度分块
  • 简单按字符/词数分割(如256token一段)
  • 优点:实现简单;缺点:可能切断语义连贯性
  1. 基于内容的分段
  • 按段落、标题等自然边界分割
  • 使用文本结构分析算法识别最佳分割点
  1. 重叠分块
  • 相邻分块保留部分重叠内容(如10%重叠)
  • 减少边界信息丢失,提高检索连贯性
  1. 层次化分块
  • 多粒度分块(小节、段落、句子级别)
  • 适应不同粒度的查询需求

二、Dify里面的几种分段方式

2.1 普通分块(标准分块)

实现方式
通过固定长度的文本块分割(如每段500字),结合Embedding模型将文本转换为向量。

DeepSeek本地RAG知识库(28):数据分段策略/标准/父子/问答 - 天天要闻

优点

  1. 灵活性高:适用于通用文档处理,支持多源数据(PDF、Word、网页等);
  2. 检索效率平衡:混合检索结合向量与关键字匹配,召回率提升30%;

缺点

  1. 上下文割裂:固定长度分块可能导致语义不连贯;
  2. 资源消耗较大:高质量模式依赖Embedding模型,需较高算力。

适用场景

  • 通用知识库构建(如企业文档管理);
  • 需要快速响应混合检索的问答系统。

2.2 问答分块(QA分块)

实现方式
通过LLM为每段文本生成问答对(Q&A pairs),检索时匹配用户问题与预生成的相似问题,返回对应答案段落。在问答模式下会自动调用LLM生成问答对,并优化检索流程。

DeepSeek本地RAG知识库(28):数据分段策略/标准/父子/问答 - 天天要闻

优点

  1. 精准匹配:通过语义相似度直接匹配问题,减少噪声干扰;
  2. 用户体验优化:适用于FAQ场景,回答更简洁直接;
  3. 支持复杂查询:通过QA对覆盖长尾问题。

缺点

  1. 生成成本高:需额外计算资源生成问答对;
  2. 依赖模型能力:问答对质量受LLM生成能力限制。

适用场景

  • 客服系统与FAQ库;
  • 需要高精度问答的垂直领域(如法律、医疗)。

2.3 父子策略/层级分块

实现方式
通过人工干预或规则定义分块层级,例如将文档按章节划分父块,再对每章内容进行子块分割。允许用户手动调整分块大小和清洗规则。

DeepSeek本地RAG知识库(28):数据分段策略/标准/父子/问答 - 天天要闻

优点

  1. 语义连贯性:层级结构保留上下文关系;
  2. 灵活可控:适用于结构化文档(如技术手册、合同)。

缺点

  1. 开发成本高:需人工标注或规则设计;
  2. 扩展性差:难以适应非结构化数据。

适用场景

  • 法律合同解析(按条款分层);
  • 学术论文检索(按摘要、正文、参考文献分级)。

2.4父子策略/全文分块

实现方式
通过人工干预或规则定义分块层级,例如将全文文档做为父块,再对内容进行子块分割。允许用户手动调整分块大小和清洗规则。

DeepSeek本地RAG知识库(28):数据分段策略/标准/父子/问答 - 天天要闻

优点

  1. 语义连贯性:文档内容结构全部保留;
  2. 灵活可控:适用于论文、作文等文章类。

缺点

  1. 开发成本高:检索速度和成功率较低;
  2. 扩展性差:难以适应非结构化数据。

适用场景

  • 文章的全参考;
  • 学术论文全文参考。

通过灵活组合分块策略与索引模式,能够覆盖从低成本快速响应到高精度复杂检索的全场景需求,大家可根据具体业务需求选择最优方案。

有问题可以留言给我。

科技分类资讯推荐

安防系统工程师证是什么? - 天天要闻

安防系统工程师证是什么?

随着近年来智能建筑、智慧型城市的建设发展,以及各行各业对于安全防护工程的重视程度不断提升,在银行、证券基金、民航、博物馆等领域急需一批专业的安防系统工程师。
被复杂计划困住的你,也许该试试这个 AI 工具 - 天天要闻

被复杂计划困住的你,也许该试试这个 AI 工具

你有没有这样的经历:兴致勃勃制定了一份精致的计划表,三天之后却再也没打开过;明明每天都在忙,却总感觉时间被碎片吞掉,目标遥遥无期;用了好几个工具(日历、代办、笔记),结果事情反而更乱了……我也是这样。
AI服务器需求强劲,慧与科技业绩超预期,中东订单已现 - 天天要闻

AI服务器需求强劲,慧与科技业绩超预期,中东订单已现

企业级AI服务器订单激增,从惠普分拆出来的电脑硬件和储存设备公司HPE正摇身变为AI“军火商”。6月3日美股盘后,慧与科技(HPE)公布强劲的第二财季业绩并上调第三财季指引。慧与科技二季度调整后每股收益38美分,营收76.3亿美元,同比增长6%,高于74.5亿美元的一致预期。在第二财季获得11亿美元净新订单,其中约三分之一来...
OpenAI免费开放ChatGPT记忆功能:用户对话连贯性提升 - 天天要闻

OpenAI免费开放ChatGPT记忆功能:用户对话连贯性提升

【环球网科技综合报道】6月4日消息,OpenAI宣布升级ChatGPT的记忆功能(Memory),并正式向所有用户免费开放。此前,该功能仅限ChatGPT Plus、Pro等付费订阅用户使用。据悉,升级后的记忆功能可保存并引用用户过往对话内容,包括偏好设置、特定指令及历史对话记录,使AI回复更具连贯性。例如,用户在撰写长篇小说或进行金融...
无人驾驶矿卡“智慧刹车”踩出节能新节奏 - 天天要闻

无人驾驶矿卡“智慧刹车”踩出节能新节奏

工人日报-中工网记者 赖志凯 通讯员 高帅琪6月3日,在首钢矿业公司水厂铁矿印子峪采场上,无人驾驶电动宽体矿车沿着蜿蜒的运输道路行进不息,载着物料上坡下坡,车轮碾过碎石路面发出规律的声响。然而,在这片繁忙景象背后,频繁的上下坡作业正悄然产生
在互联网上,如何避免被割韭菜? - 天天要闻

在互联网上,如何避免被割韭菜?

各位村民好,我是村长经常有人添加我微信,和我说自己被某某博主、项目割韭菜了。有的被割了79、99,有的则被割了几百、上千元。当然,前阵子很火的三年、五年合伙人模式,不少人被割了七八千、一两万。所以各位,在互联网上搞钱,大家一定要慎之又慎。
中老年团播,年轻人围观,谁赚钱? - 天天要闻

中老年团播,年轻人围观,谁赚钱?

文 | 锌刻度,作者 | 黎炫岐,编辑 | 陈邓新六十岁,正是打拼的时候。这句流传一时的调侃,正在直播赛道上成为现实。不久前,话题#300岁TVB老人跳晚安大小姐 冲上热搜、由六位香港资深男艺人团播打PK跳《晚安大小姐》的表演视频引发网友热
我的手机用了4年,朋友笑我抠门,我却笑他们不懂人生 - 天天要闻

我的手机用了4年,朋友笑我抠门,我却笑他们不懂人生

当同事小张第N次在茶水间炫耀新买的折叠屏手机时,我默默擦了擦自己屏幕裂了条缝的旧手机——这是2020年花1699元买的,至今仍倔强地运行着。有人说这是“抠门”,有人猜我是“穷酸”,但只有我知道:这部手机里藏着比任何黑科技都珍贵的生存哲学。
2025年“数据要素×”大赛上海分赛常见问题解答 - 天天要闻

2025年“数据要素×”大赛上海分赛常见问题解答

往期推荐宝山推荐的这支足球队代表上海斩获十五运会群众赛事银牌!睡莲、金丝桃等进入盛花期!来顾村公园赏花吧~ 上海新增42家儿童友好城市阅读新空间!宝山区罗泾镇图书馆儿童友好阅读新空间上榜~编辑:秦天宇资料:上海一网通办总门户*转载请注明来自上海宝山官方微信...