Share your thoughts, 1 month free Claude Pro on usSee more

Factuality Evaluation on TruthfulQA (0-shot)

64.3Factuality Score (0-shot)

AquilaChat2

Updated 3mo ago

Evaluation Results

Method	Links
AquilaChat2 2024.03		64.3
Yi-Chat 2024.03		62.4
Yi-Chat-8bits(GPTQ) 2024.03		61.8
Yi-Chat-4bits(AWQ) 2024.03		61.8
LLaMA2-Chat 2024.03		54
Qwen-Chat 2024.03		52.5
InternLM-Chat 2024.03		51.8
Yi-Chat 2024.03		50.6
Yi-Chat-4bits(AWQ) 2024.03		50.3
Yi-Chat-8bits(GPTQ) 2024.03		49.9
Baichuan2-Chat 2024.03		49
LLaMA2-Chat 2024.03		36.8