Audio-Visual Speech Recognition

Benchmarks

Dataset Name	SOTA Method	Metric
LRS3 (test)	AVUR-LLM	WER0.68	77	2mo ago
LRS3 clean (test)	MMS-LLAMA	WER0.72	77	3mo ago
LRS2 (test)	USR 2.0	WER1.3	34	3mo ago
LRS-3 Babble noise at 0dB SNR (test)	LP Conformer	WER1.9	32	3mo ago
LRS3 30h labeled low-resource (test)	DistillAV-L	WER1.8	22	3mo ago
LRS2 (clean)	MIR-GAN	WER2.2	16	2mo ago
LRS3	Llama-AVSR	WER0.008	14	2mo ago
WildVSR (test)	USR 2.0	WER0.385	12	3mo ago
LRS3 (test)	GER w/ Auto-AVSR	Overall Score43	10	3mo ago
LRS2 50% visual occlusion (test)		WER (Overall)6.4	10	3mo ago
TED LRS3	VGG CONFORMER	WER0.009	10	3mo ago
MuAViC Noise environment (test)	XLAVS-R 2B	Accuracy (En)49.5	9	3mo ago
MuAViC Clean environment (test)	XLS-R 300M	En Acc2.5	9	3mo ago
LRS3 noisy	AV-HuBERT + CMA + MoHAVE	Average Error Rate4.2	8	3mo ago
LRS3 433 h 0 dB SNR	AVUR-LLM	WER1.7	7	3mo ago
LRS3 433 h 5 dB SNR	MMS-LLaMA	WER1.3	7	3mo ago
LRS3 Pixelated face	CAV2vec	WER (Babble, -10 dB)26	7	3mo ago
LRS3 Occlusion by hands	CAV2vec	WER (Babble, -10 dB)26.6	7	3mo ago
LRS3 Object occlusion and noise	CAV2vec	WER (Babble, -10 dB)25.8	7	3mo ago
LRS3 noisy synthesized using MUSAN noise (test)	MIR-GAN	WER5.6	7	3mo ago
MuAViC (test)	AV-HUBERT	Accuracy (Ara)89.4	7	3mo ago
LRS2 noisy (MUSAN)	MIR-GAN	WER7	6	3mo ago
LRS3 + DEMAND Object Occlusion + Noise (test)	CAV2vec	Error Rate (PARK)2.8	5	3mo ago
FLEURS Noise environment (test)	XLAVS-R 2B	WER74	5	3mo ago
FLEURS Clean environment (test)	XLAVS-R 300M	WER32.5	5	3mo ago

Showing 25 of 49 rows