Share your thoughts, 1 month free Claude Pro on usSee more

Fault-recognition on FaultyScience

67.8Accuracy

DeIllusionLLM

Updated 4mo ago

Evaluation Results

Method	Links
DeIllusionLLM 2026.03		67.8
DeIllusionLLM 2026.03		42.7
GPT-4 2026.03		34.9
Llama3.3 70B 2026.03		14
Qwen2.5-72B 2026.03		10.8
Mixtral-8x7B 2026.03		10.2