ASR Error Correction

Benchmarks

Dataset Name	SOTA Method	Metric
Common Voice Frisian (test)	GPT-5.1	WER8.9	27	2mo ago
Frisian Offline Data (test)	GPT-5.1	WER13.8	27	2mo ago
STOP (test)		WER5.7	18	4mo ago
CommonVoice (CV) (test)		WER5.8	18	4mo ago
CORAAL (test)		WER10.7	8	4mo ago
LRS2 (test)		WER2.6	8	4mo ago
SwitchBoard (test)		Word Error Rate (WER)0.042	8	4mo ago
CV-accent (test)		WER0.079	8	4mo ago
Tedlium-3 (test)		WER0.7	8	4mo ago
CHIME-4 (test)		WER2.8	8	4mo ago
ATIS (test)		WER1.1	8	4mo ago
ASR Error Correction Evaluation Set (test)	Our full model	WER16.07	6	4mo ago
Internal Dataset (dev)	AR model	WER10.31	6	4mo ago
Internal Dataset (test)	AR model	WER10.22	6	4mo ago
AISHELL-1 (dev)	AR model	WER3.8	6	4mo ago
AISHELL-1 (test)	AR model	WER4.08	6	4mo ago
Hindi (hi)	G-SPIN	WER31	5	1mo ago
Telugu te	G-SPIN	WER0.39	5	1mo ago
Spanish (es)	G-SPIN	WER34	5	1mo ago
English (en)	G-SPIN	WER32	5	1mo ago
Common Voice (Persian) SNR = 10 dB	ELN-conditioned model	WER28.02	4	4mo ago
Common Voice (Persian) SNR = 5 dB	ELN-conditioned model	WER32.34	4	4mo ago
Common Voice (Persian) Mixed Noise	ELN-conditioned model	WER24.84	4	4mo ago
Common Voice Persian (Clean)		WER24.06	4	4mo ago
FLEURS Persian	Error-Aware RAG	WER18.83	3	1mo ago

Showing 25 of 30 rows