文档分块是一种根据段落和章节等文档结构将文档拆分成更小块的方法。它分析自然的文档边界,而不是在固定的字符数处进行分割。当您想在保留语义含义和上下文的同时处理大型文档时,这非常有用。

用法

from agno.agent import Agent
from agno.document.chunking.document import DocumentChunking
from agno.knowledge.pdf_url import PDFUrlKnowledgeBase
from agno.vectordb.pgvector import PgVector

db_url = "postgresql+psycopg://ai:ai@localhost:5532/ai"

knowledge_base = PDFUrlKnowledgeBase(
    urls=["https://agno-public.s3.amazonaws.com/recipes/ThaiRecipes.pdf"],
    vector_db=PgVector(table_name="recipes_document_chunking", db_url=db_url),
    chunking_strategy=DocumentChunking(),
)
knowledge_base.load(recreate=False)  # 首次运行后注释掉此行

agent = Agent(
    knowledge_base=knowledge_base,
    search_knowledge=True,
)

agent.print_response("How to make Thai curry?", markdown=True)

文档分块参数

参数类型默认值描述
chunk_sizeint5000每个块的最大大小。
overlapint0块之间要重叠的字符数。