Share your thoughts, 1 month free Claude Pro on usSee more

Causal Judgment on BIG-Bench Hard

69.5Accuracy

GPT-4

Updated 4mo ago

Evaluation Results

Method	Links
GPT-4 2026.03		69.5
DeIllusionLLM 2026.03		68.98
Qwen2.5-72B 2026.03		42.78
DeIllusionLLM 2026.03		41.71
Llama3.3 70B 2026.03		17.11
Mixtral-8x7B 2026.03		16.58