PostTrainBench

Benchmarks

Task Name	Dataset Name	SOTA Result
Multi-task Evaluation	PostTrainBench	AIME 25 Score29.17	41
Autonomous LLM training	PostTrainBench	Score63.75	32
Comprehensive LLM Evaluation	PostTrainBench (test)	AIME 202553.33	17
General Reasoning Average	PostTrainBench	Average (%)44.81	17

Showing 4 of 4 rows