Share your thoughts, 1 month free Claude Pro on usSee more

Natural Language Reasoning on DROP

89.62Accuracy

InfiGFusion

Updated 2mo ago

Evaluation Results

Method	Links
InfiGFusion 2025.05		89.62
Pivot-SFT 2025.05		89.44
InfiFusion 2025.05		89.27
FuseChat 2025.05		89.23
GPT-4o + QuaSAR 2025.02		88.9
FuseLLM 2025.05		88.74
Phi-4 2025.05		88.67
MiniLogit 2025.05		88.56
Llama-3-70B + QuaSAR 2025.02		88
Mistral-Small 2025.05		86.52
Qwen2.5-Instruct 2025.05		85.56
Qwen2.5-Coder 2025.05		84.34
GPT-4o + CoT 2025.02		84.2
GPT-4o 2025.02		83.4
Llama-3-70B 2025.02		81.4
Llama-3-70B + CoT 2025.02		80.2
Qwen2-72B + QuaSAR 2025.02		69
Qwen2-72B 2025.02		66.4
Qwen2-72B + CoT 2025.02		64
QuaSAR 2025.02		63.9
Llama-3-8B 2025.02		60.2
QuaSAR 2025.02		60
COT 2025.02		59.3
QuaSAR 2025.02		58.7
Llama-3-8B 2025.02		58.4
COT 2025.02		57.9
QuaSAR 2025.02		57.3
QuaSAR 2025.02		57.2
COT 2025.02		56.8
COT 2025.02		56
Qwen2-7B 2025.02		55.3
COT 2025.02		55
QuaSAR 2025.02		54.6
COT 2025.02		54.4
Qwen2-7B 2025.02		54.2
QuaSAR 2025.02		54.1
Llama-3-1B 2025.02		53
Llama-3-1B 2025.02		52.5
COT 2025.02		52.5
COT 2025.02		51.2
Qwen2-1.5B 2025.02		50.8
QuaSAR 2025.02		50.8
Qwen2-1.5B 2025.02		49.8