02_bfcl_quick_start.py 1.3 KB

12345678910111213141516171819202122232425262728293031323334353637383940414243444546474849
  1. """
  2. 第十二章示例2:BFCL快速开始
  3. 对应文档:12.2.5 在HelloAgents中实现BFCL评估 - 方式1
  4. 这是最简单的BFCL评估方式,一行代码完成评估、报告生成和官方评估。
  5. """
  6. from hello_agents import SimpleAgent, HelloAgentsLLM
  7. from hello_agents.tools import BFCLEvaluationTool
  8. # 1. 创建要评估的智能体
  9. llm = HelloAgentsLLM()
  10. agent = SimpleAgent(name="TestAgent", llm=llm)
  11. # 2. 创建BFCL评估工具
  12. bfcl_tool = BFCLEvaluationTool()
  13. # 3. 运行评估(自动完成所有步骤)
  14. results = bfcl_tool.run(
  15. agent=agent,
  16. category="simple_python", # 评估类别
  17. max_samples=5 # 评估样本数(0表示全部)
  18. )
  19. # 4. 查看结果
  20. print(f"准确率: {results['overall_accuracy']:.2%}")
  21. print(f"正确数: {results['correct_samples']}/{results['total_samples']}")
  22. # 运行输出示例:
  23. # ============================================================
  24. # BFCL一键评估
  25. # ============================================================
  26. #
  27. # 配置:
  28. # 智能体: TestAgent
  29. # 类别: simple_python
  30. # 样本数: 5
  31. #
  32. # 评估进度: 100%|██████████| 5/5 [00:15<00:00, 3.12s/样本]
  33. #
  34. # ✅ 评估完成
  35. # 总样本数: 5
  36. # 正确样本数: 5
  37. # 准确率: 100.00%
  38. #
  39. # 准确率: 100.00%
  40. # 正确数: 5/5