Share your thoughts, 1 month free Claude Pro on usSee more

Factuality Evaluation on MMLU

82.4EM

GPT-4

Updated 4mo ago

Evaluation Results

Method	Links
GPT-4 2023.06		82.4
ChatGPT 2023.06		67.9
ShareGPT 65B 2023.06		61.3
Human mix. 65B 2023.06		60.4
TÜLU 65B 2023.06		59.2
LLaMa 65B 2023.06		58.7
TÜLU 30B 2023.06		57.7
LLaMa 30B 2023.06		54.6
TÜLU-1.1 13B 2023.06		52.3
LLaMa-2 13B 2023.06		52
TÜLU 13B 2023.06		49.3
TÜLU-1.1 7B 2023.06		49.2
TÜLU 7B 2023.06		44.8
LLaMa 13B 2023.06		42.3
LLaMa-2 7B 2023.06		41.8
LLaMa 7B 2023.06		31.5