了解如何评估使用工具的 Agent 的准确性。
此示例展示了一个评估,它运行提供的 agent 并使用提供的输入,然后评估 agent 提供的答案。
from typing import Optional
from agno.agent import Agent
from agno.eval.accuracy import AccuracyEval, AccuracyResult
from agno.models.openai import OpenAIChat
from agno.tools.calculator import CalculatorTools
evaluation = AccuracyEval(
model=OpenAIChat(id="o4-mini"),
agent=Agent(
model=OpenAIChat(id="gpt-4o-mini"),
tools=[CalculatorTools(factorial=True)],
),
input="What is 10!?",
expected_output="3628800",
)
result: Optional[AccuracyResult] = evaluation.run(print_results=True)
assert result is not None and result.avg_score >= 8