Share your thoughts, 1 month free Claude Pro on usSee more

Open-ended instruction following on Dolly Eval

54A Win Rate

BPO + Llama-2-chat 13B (Cross-size)

Updated 4mo ago

Evaluation Results

Method	Links
BPO + Llama-2-chat 13B (Cross-size) 2023.11		54	6.5	39.5	11.9
BPO + Llama-2-chat 7B 2023.11		52	9.5	38.5	17.4
BPO + Vicuna-v1.3 13B 2023.11		52	8	40	13.1
BPO + Llama-2-chat 70B 2023.11		51	18	31	16.8
BPO + Llama-2-chat 13B 2023.11		50.5	13.5	36	18.1
BPO + Llama-2-chat 7B (Cross-size) 2023.11		49	2	49	-7.1
BPO + Vicuna-v1.3 7B 2023.11		47	22	31	18.5