Share your thoughts, 1 month free Claude Pro on usSee more

Long-context Reasoning Accuracy on LongBench

70.4Accuracy (LongBench)

CAP-CoT

Updated 2mo ago

Evaluation Results

Method	Links
CAP-CoT 2026.04		70.4
CAP-CoT 2026.04		69.5
AoT 2026.04		69.5
CAP-CoT 2026.04		69.3
CAP-CoT 2026.04		68.9
AoT 2026.03		68.7
AoT 2026.04		68.7
AoT 2026.03		68.5
AoT 2026.04		68.5
AoT 2026.03		68.1
AoT 2026.04		68.1
ECON 2026.04		66
ECON 2026.04		65.2
GoT 2026.04		65.2
MAD 2026.04		65.2
ECON 2026.04		65
MAD 2026.04		64.5
ToT 2026.04		64.5
MAD 2026.04		64.2
ECON 2026.04		64
GoT 2026.04		63.8
AFlow 2026.04		63.5
GoT 2026.03		63.4
GoT 2026.04		63.4
ToT 2026.03		63.2
MAD 2026.04		63.2
ToT 2026.04		63.2
GoT 2026.03		63.1
ToT 2026.04		63.1
ToT 2026.03		62.8
GoT 2026.03		62.8
GoT 2026.04		62.8
ToT 2026.03		62.4
ToT 2026.04		62.4
FoT 2026.04		61.5
AFlow 2026.03		61.4
AFlow 2026.04		61.4
AFlow 2026.03		61
AFlow 2026.04		61
PromptAgent 2026.04		61
CoT-SC 2026.04		60.8
CCoT 2026.04		60.5
AFlow 2026.03		60.4
AFlow 2026.04		60.4
Self-Refine 2026.04		60.2
TDA-RC 2026.03		59.5
TDA-RC 2026.03		59.5
CoT 2026.04		59.5
TDA-RC 2026.03		59.3
TDA-RC 2026.03		59.3
FoT (n=8) 2026.03		59.3
FoT 2026.04		59.3
PromptAgent 2026.04		59.2
FoT (n=8) 2026.03		59.1
FoT 2026.04		59.1
TDA-RC 2026.03		59
Instruction Induction 2026.03		59
FoT (n=8) 2026.03		59
TDA-RC 2026.03		59
FoT 2026.04		59
CoT-SC 2026.03		58.9
CoT-SC 2026.04		58.9
Instruction Induction 2026.03		58.8
CCoT 2026.04		58.8
Role / Persona Prompting 2026.03		58.7
PromptAgent 2026.04		58.7
Role / Persona Prompting 2026.03		58.6
HoT 2026.03		58.6
CoT-SC (n=5) 2026.03		58.6
CoT-SC 2026.04		58.6
Prompt Canvas 2026.03		58.5
Prompt Canvas 2026.03		58.5
PromptAgent 2026.04		58.5
CCoT 2026.04		58.5
CCoT 2026.04		58.5
HoT 2026.03		58.4
CoT-SC (n=5) 2026.03		58.4
Self-Refine 2026.03		58.4
CoT-SC 2026.04		58.4
Self-Refine 2026.04		58.4
Instruction Induction 2026.03		58.3
HoT 2026.03		58.2
Self-Refine 2026.03		58.2
Self-Refine 2026.04		58.2
Role / Persona Prompting 2026.03		58.1
Prompt Canvas 2026.03		58
Self-Refine 2026.03		58
Self-Refine 2026.04		58
CoT 2026.03		57.7
CoT 2026.04		57.7
CoT 2026.03		57.6
CoT 2026.04		57.6
CoT 2026.03		57.3
CoT 2026.04		57.3
AP 2026.04		55.2
Analogical Prompting 2026.03		53.4
AP 2026.04		53.4
Analogical Prompting 2026.03		52.9
AP 2026.04		52.9
Analogical Prompting 2026.03		52.7

Showing 100 of 101 rows