Share your thoughts, 1 month free Claude Pro on usSee more

Text Generation on Harry Potter forget data (400 chunks)

8.02BLEU

Target LLM

Updated 5mo ago

Evaluation Results

Method	Links
Target LLM 2024.06		8.02	16.98
NPO+GD 2024.06		0.82	5.76
Before finetune 2024.06		0.74	8.97
NPO+KL 2024.06		0.74	6.84
ULD 2024.06		0.67	4.58
Offset-NPO+KL 2024.06		0.58	8.55
NPO 2024.06		0.47	4.31
Offset-DPO+KL 2024.06		0.45	4.39
DPO+GD 2024.06		0.38	3.94
DPO 2024.06		0.35	4.24
DPO+KL 2024.06		0.35	4.15
GA 2024.06		0	0
GA+GD 2024.06		0	0
GA+KL 2024.06		0	0
Offset-GA+KL 2024.06		0	0