| 123456789101112131415161718192021222324252627282930313233343536373839404142434445464748495051525354555657585960616263646566676869707172737475767778798081828384858687888990919293949596979899100101102103104105106107108109110111112113114115116117118 |
- """
- 第十二章示例7:数据生成完整评估流程
- 对应文档:12.4.6 完整评估流程
- 这个示例展示了数据生成的完整评估流程:
- 1. 生成AIME题目
- 2. LLM Judge评估
- 3. Win Rate评估
- 4. 人工验证
- 运行方式:
- python 07_data_generation_complete_flow.py 30 3.0
- 参数说明:
- - 30: 生成30道题目
- - 3.0: 每道题目之间延迟3秒(避免速率限制)
- """
- import sys
- import os
- # 添加HelloAgents路径
- sys.path.insert(0, os.path.join(os.path.dirname(__file__), "..", "HelloAgents"))
- from data_generation.run_complete_evaluation import main
- if __name__ == "__main__":
- # 默认参数
- num_problems = 30
- delay_seconds = 3.0
-
- # 从命令行获取参数
- if len(sys.argv) > 1:
- num_problems = int(sys.argv[1])
- if len(sys.argv) > 2:
- delay_seconds = float(sys.argv[2])
-
- print("="*80)
- print("🚀 AIME数据生成与评估完整流程")
- print("="*80)
- print(f"\n配置:")
- print(f" 生成数量: {num_problems}道题目")
- print(f" 延迟设置: {delay_seconds}秒/题")
- print(f" 生成模型: gpt-4o")
- print(f" 评估模型: gpt-4o")
- print()
-
- # 运行完整流程
- main(num_problems, delay_seconds)
- # 运行输出示例:
- # ================================================================================
- # 🚀 AIME数据生成与评估完整流程
- # ================================================================================
- #
- # 配置:
- # 生成数量: 30道题目
- # 延迟设置: 3.0秒/题
- # 生成模型: gpt-4o
- # 评估模型: gpt-4o
- #
- # ✅ 已加载 963 道参考题目
- #
- # 🎯 开始生成AIME题目
- # 目标数量: 30
- # 生成模型: gpt-4o
- # 延迟设置: 3.0秒/题
- #
- # 生成AIME题目: 100%|██████████| 30/30 [02:30<00:00, 5.01s/题]
- #
- # ✅ 生成完成
- # 成功: 30/30
- # 保存位置: ./data_generation/generated_data/aime_problems_20241211_143022.json
- #
- # ========== LLM Judge评估 ==========
- #
- # 📊 开始LLM Judge评估
- # 评估模型: gpt-4o
- # 样本数: 30
- #
- # LLM Judge评估: 100%|██████████| 30/30 [01:30<00:00, 3.01s/题]
- #
- # ✅ LLM Judge评估完成
- # 平均分: 3.5/5.0
- # 评估维度:
- # - 正确性: 3.8/5.0
- # - 清晰度: 3.6/5.0
- # - 难度匹配: 3.4/5.0
- # - 完整性: 3.2/5.0
- #
- # ========== Win Rate评估 ==========
- #
- # 📊 开始Win Rate评估
- # 评估模型: gpt-4o
- # 对比数量: 20
- # 参考数据集: AIME 2025 (963道题目)
- #
- # Win Rate评估: 100%|██████████| 20/20 [01:00<00:00, 3.01s/对比]
- #
- # ✅ Win Rate评估完成
- # Win Rate: 45.0%
- # Tie Rate: 10.0%
- # Loss Rate: 45.0%
- #
- # ========== 人工验证 ==========
- #
- # 🎯 启动人工验证界面
- # 访问地址: http://127.0.0.1:7860
- #
- # ✅ 完整评估流程完成!
- #
- # 📊 评估总结:
- # 生成数量: 30道题目
- # LLM Judge平均分: 3.5/5.0
- # Win Rate: 45.0%
- # 建议: 生成质量接近AIME真题水平
|