| .. |
|
01-后训练主线总览图.png
|
5274eb2cf1
docs: 补充旅行助手 SFT/DPO/Rerank 后训练实战
|
1 месяц назад |
|
02-开篇Case前后对比图.png
|
5274eb2cf1
docs: 补充旅行助手 SFT/DPO/Rerank 后训练实战
|
1 месяц назад |
|
03-产品协议改造图.png
|
5274eb2cf1
docs: 补充旅行助手 SFT/DPO/Rerank 后训练实战
|
1 месяц назад |
|
04-评测集冻结图.png
|
5274eb2cf1
docs: 补充旅行助手 SFT/DPO/Rerank 后训练实战
|
1 месяц назад |
|
05-SFT数据生成与审计漏斗图.png
|
5274eb2cf1
docs: 补充旅行助手 SFT/DPO/Rerank 后训练实战
|
1 месяц назад |
|
06-LoRA多阶段训练时间线图.png
|
5274eb2cf1
docs: 补充旅行助手 SFT/DPO/Rerank 后训练实战
|
1 месяц назад |
|
07-Best-of-N-Replay与Rerank图.png
|
5274eb2cf1
docs: 补充旅行助手 SFT/DPO/Rerank 后训练实战
|
1 месяц назад |
|
09-sft-rerank-comparison.png
|
5274eb2cf1
docs: 补充旅行助手 SFT/DPO/Rerank 后训练实战
|
1 месяц назад |
|
10-dpo-rerank-closing.png
|
5274eb2cf1
docs: 补充旅行助手 SFT/DPO/Rerank 后训练实战
|
1 месяц назад |
|
11-mimo-reference-comparison.png
|
5274eb2cf1
docs: 补充旅行助手 SFT/DPO/Rerank 后训练实战
|
1 месяц назад |
|
12-DPO样本筛选与防泄漏图.png
|
5274eb2cf1
docs: 补充旅行助手 SFT/DPO/Rerank 后训练实战
|
1 месяц назад |
|
15-DPO-loss跨批次不可比图.png
|
5274eb2cf1
docs: 补充旅行助手 SFT/DPO/Rerank 后训练实战
|
1 месяц назад |
|
16-PlannerSoft指标分解图.png
|
5274eb2cf1
docs: 补充旅行助手 SFT/DPO/Rerank 后训练实战
|
1 месяц назад |
|
17-单生成与多候选Rerank对比图.png
|
5274eb2cf1
docs: 补充旅行助手 SFT/DPO/Rerank 后训练实战
|
1 месяц назад |