COIN

Benchmarks

Task Name	Dataset Name	SOTA Result
Symbolic Reasoning	Coin	Accuracy100	45
Procedure Planning	COIN T=3 (test)	SR30.12	40
Video Action Classification	COIN	Top-1 Acc95.3	33
Action Phase Classification	COIN	Phase Acc54.1	32
Action segmentation	COIN	Frame Accuracy70.02	29
Procedure Planning	COIN	SR60.75	28
Step Forecasting	COIN	Accuracy56.2	26
Classification of Procedural Activities	COIN (test)	Accuracy90.81	23
Action Segmentation	COIN (test)	Frame Accuracy72.8	23
Visual Planning	COIN	Success Rate (SR)33.99	22
Task recognition	COIN	Accuracy94.5	22
Continual Multimodal Instruction Tuning	CoIN ScienceQA TextVQA ImageNet GQA VizWiz Grounding Chameleon backbone	Accuracy68.71	22
Procedure Planning	COIN T=4 (test)	SR31.56	21
Goal-conditioned visual planning	COIN T=4 71	SR27.79	20
Goal-conditioned visual planning	COIN T=3 71	Success Rate (SR)34.85	20
Continual Learning	CoIN	Backward Transfer (BWT)-4.67	20
Video Classification	COIN (test)	Top-1 Accuracy94.1	20
Keystep recognition	COIN (test)	Accuracy16.9	18
Instructional Temporal Answer Grounding in Video	COIN (test)	R@0.359.11	14
Long-Term Video Understanding	COIN	Top-1 Acc96	14
Keystep recognition	COIN	Accuracy57.2	14
Goal-conditioned visual planning	COIN T=4 71 (test)	Success Rate (SR)33.29	13
Goal-conditioned visual planning	COIN T=3 71 (test)	SR45.29	13
Multimodal Continual Instruction Tuning	CoIN	Last Accuracy64.5	13
Consistent Video Retrieval	COIN (test)	Accuracy51.64	13

Showing 25 of 60 rows