语义分块是一种通过使用嵌入分析文本片段之间的语义相似性来将文档分割成更小块的方法。 它使用 chonkie 库来识别自然断点,在这些断点处,语义含义会根据可配置的相似性阈值发生显著变化。 通过确保语义相关的内​​容保留在同一块中,并在有意义的主题过渡处进行分割,这比定长分块更能有效地保持上下文和含义。

参数类型默认值描述
embedderEmbedderOpenAIEmbedder用于语义分块的 embedder。
chunk_sizeint5000每个块的最大大小。
similarity_thresholdfloat0.5用于确定块边界的相似度阈值。