nameless0078 5274eb2cf1 docs: 补充旅行助手 SFT/DPO/Rerank 后训练实战 1 месяц назад
..
01-后训练主线总览图.png 5274eb2cf1 docs: 补充旅行助手 SFT/DPO/Rerank 后训练实战 1 месяц назад
02-开篇Case前后对比图.png 5274eb2cf1 docs: 补充旅行助手 SFT/DPO/Rerank 后训练实战 1 месяц назад
03-产品协议改造图.png 5274eb2cf1 docs: 补充旅行助手 SFT/DPO/Rerank 后训练实战 1 месяц назад
04-评测集冻结图.png 5274eb2cf1 docs: 补充旅行助手 SFT/DPO/Rerank 后训练实战 1 месяц назад
05-SFT数据生成与审计漏斗图.png 5274eb2cf1 docs: 补充旅行助手 SFT/DPO/Rerank 后训练实战 1 месяц назад
06-LoRA多阶段训练时间线图.png 5274eb2cf1 docs: 补充旅行助手 SFT/DPO/Rerank 后训练实战 1 месяц назад
07-Best-of-N-Replay与Rerank图.png 5274eb2cf1 docs: 补充旅行助手 SFT/DPO/Rerank 后训练实战 1 месяц назад
09-sft-rerank-comparison.png 5274eb2cf1 docs: 补充旅行助手 SFT/DPO/Rerank 后训练实战 1 месяц назад
10-dpo-rerank-closing.png 5274eb2cf1 docs: 补充旅行助手 SFT/DPO/Rerank 后训练实战 1 месяц назад
11-mimo-reference-comparison.png 5274eb2cf1 docs: 补充旅行助手 SFT/DPO/Rerank 后训练实战 1 месяц назад
12-DPO样本筛选与防泄漏图.png 5274eb2cf1 docs: 补充旅行助手 SFT/DPO/Rerank 后训练实战 1 месяц назад
15-DPO-loss跨批次不可比图.png 5274eb2cf1 docs: 补充旅行助手 SFT/DPO/Rerank 后训练实战 1 месяц назад
16-PlannerSoft指标分解图.png 5274eb2cf1 docs: 补充旅行助手 SFT/DPO/Rerank 后训练实战 1 месяц назад
17-单生成与多候选Rerank对比图.png 5274eb2cf1 docs: 补充旅行助手 SFT/DPO/Rerank 后训练实战 1 месяц назад