1
0

07_data_generation_complete_flow.py 3.0 KB

123456789101112131415161718192021222324252627282930313233343536373839404142434445464748495051525354555657585960616263646566676869707172737475767778798081828384858687888990919293949596979899100101102103104105106107108109110111112113114115116117118
  1. """
  2. 第十二章示例7:数据生成完整评估流程
  3. 对应文档:12.4.6 完整评估流程
  4. 这个示例展示了数据生成的完整评估流程:
  5. 1. 生成AIME题目
  6. 2. LLM Judge评估
  7. 3. Win Rate评估
  8. 4. 人工验证
  9. 运行方式:
  10. python 07_data_generation_complete_flow.py 30 3.0
  11. 参数说明:
  12. - 30: 生成30道题目
  13. - 3.0: 每道题目之间延迟3秒(避免速率限制)
  14. """
  15. import sys
  16. import os
  17. # 添加HelloAgents路径
  18. sys.path.insert(0, os.path.join(os.path.dirname(__file__), "..", "HelloAgents"))
  19. from data_generation.run_complete_evaluation import main
  20. if __name__ == "__main__":
  21. # 默认参数
  22. num_problems = 30
  23. delay_seconds = 3.0
  24. # 从命令行获取参数
  25. if len(sys.argv) > 1:
  26. num_problems = int(sys.argv[1])
  27. if len(sys.argv) > 2:
  28. delay_seconds = float(sys.argv[2])
  29. print("="*80)
  30. print("🚀 AIME数据生成与评估完整流程")
  31. print("="*80)
  32. print(f"\n配置:")
  33. print(f" 生成数量: {num_problems}道题目")
  34. print(f" 延迟设置: {delay_seconds}秒/题")
  35. print(f" 生成模型: gpt-4o")
  36. print(f" 评估模型: gpt-4o")
  37. print()
  38. # 运行完整流程
  39. main(num_problems, delay_seconds)
  40. # 运行输出示例:
  41. # ================================================================================
  42. # 🚀 AIME数据生成与评估完整流程
  43. # ================================================================================
  44. #
  45. # 配置:
  46. # 生成数量: 30道题目
  47. # 延迟设置: 3.0秒/题
  48. # 生成模型: gpt-4o
  49. # 评估模型: gpt-4o
  50. #
  51. # ✅ 已加载 963 道参考题目
  52. #
  53. # 🎯 开始生成AIME题目
  54. # 目标数量: 30
  55. # 生成模型: gpt-4o
  56. # 延迟设置: 3.0秒/题
  57. #
  58. # 生成AIME题目: 100%|██████████| 30/30 [02:30<00:00, 5.01s/题]
  59. #
  60. # ✅ 生成完成
  61. # 成功: 30/30
  62. # 保存位置: ./data_generation/generated_data/aime_problems_20241211_143022.json
  63. #
  64. # ========== LLM Judge评估 ==========
  65. #
  66. # 📊 开始LLM Judge评估
  67. # 评估模型: gpt-4o
  68. # 样本数: 30
  69. #
  70. # LLM Judge评估: 100%|██████████| 30/30 [01:30<00:00, 3.01s/题]
  71. #
  72. # ✅ LLM Judge评估完成
  73. # 平均分: 3.5/5.0
  74. # 评估维度:
  75. # - 正确性: 3.8/5.0
  76. # - 清晰度: 3.6/5.0
  77. # - 难度匹配: 3.4/5.0
  78. # - 完整性: 3.2/5.0
  79. #
  80. # ========== Win Rate评估 ==========
  81. #
  82. # 📊 开始Win Rate评估
  83. # 评估模型: gpt-4o
  84. # 对比数量: 20
  85. # 参考数据集: AIME 2025 (963道题目)
  86. #
  87. # Win Rate评估: 100%|██████████| 20/20 [01:00<00:00, 3.01s/对比]
  88. #
  89. # ✅ Win Rate评估完成
  90. # Win Rate: 45.0%
  91. # Tie Rate: 10.0%
  92. # Loss Rate: 45.0%
  93. #
  94. # ========== 人工验证 ==========
  95. #
  96. # 🎯 启动人工验证界面
  97. # 访问地址: http://127.0.0.1:7860
  98. #
  99. # ✅ 完整评估流程完成!
  100. #
  101. # 📊 评估总结:
  102. # 生成数量: 30道题目
  103. # LLM Judge平均分: 3.5/5.0
  104. # Win Rate: 45.0%
  105. # 建议: 生成质量接近AIME真题水平