Share your thoughts, 1 month free Claude Pro on usSee more

Instruction Following on Vicuna benchmark zero-shot

119.4Pairwise Score (ChatGPT vs Sys)

GPT-4

Updated 4mo ago

Evaluation Results

Method	Links
GPT-4 2023.05		119.4	110.1	114.5	2.6
Guanaco 2023.05		96.7	101.9	99.3	4.4
Guanaco 2023.05		96.5	99.2	97.8	4.4
Bard 2023.05		93.2	96.4	94.8	4.1
Open Assistant 2023.05		91.2	98.7	94.9	4.5
Vicuna 2023.05		91.2	98.7	94.9	4.5
Guanaco 2023.05		87.3	93.4	90.4	5.2
Guanaco 2023.05		84.1	89.8	87	5.4
Alpaca 2023.05		67.2	79.7	73.6	4.2
Alpaca 2023.05		63.8	76.7	69.4	4.2
Alpaca 2023.05		63	77.9	70.7	4.3
Alpaca 2023.05		57.3	71.2	64.4	5
HH-RLHF 2023.05		55.5	69.1	62.5	4.7
Unnatural Instr. 2023.05		50.6	69.8	60.5	4.2
Chip2 2023.05		49.2	69.3	59.5	4.7
Longform 2023.05		44.9	62	53.6	5.2
Self-Instruct 2023.05		38	60.5	49.1	4.6
FLAN v2 2023.05		37	59.6	48.4	4.6
FLAN v2 2023.05		33.3	56.1	44.8	4
FLAN v2 2023.05		32.4	61.2	47	3.6
FLAN v2 2023.05		26.3	49.7	38	3.9