文档分块是一种根据段落和章节等文档结构将文档拆分成更小块的方法。 它分析自然的文档边界,而不是在固定的字符数处进行拆分。当您想在处理大型文档的同时保留语义含义和上下文时,这非常有用。

参数类型默认值描述
chunk_sizeint5000每个块的最大大小。
overlapint0块之间要重叠的字符数。