LRS2

Benchmarks

Task Name	Dataset Name	SOTA Result
Visual-only Speech Recognition	LRS2 (test)	WER12.6	77
Visual Speech Recognition	LRS2	Mean WER14.6	49
Speech Recognition	LRS2 (test)	WER1.3	49
Lip Reading	LRS2 (test)	WER14.6	39
Audio-visual Speech Recognition	LRS2 (test)	WER1.3	34
Audio-visual speech separation	LRS2-2Mix (test)	SI-SNRi16	33
Audio-Visual Speech Separation	LRS2 (test)	SDRi16.9	23
Audio-Visual Target Speaker Extraction	LRS2 2-mix (test)	DNSMOS3.16	22
Automatic Speech Recognition	LRS2-2Mix (test)	WER17.74	18
Speech Enhancement	LRS2 mixed with VGGSound noises (test)	PESQ3.22	18
Talking Face Generation	LRS2 (test)	SSIM1	18
Audio-Visual Speech Recognition	LRS2 (clean)	WER2.2	16
Visual Speech Recognition	LRS2 v0.4 (test)	WER3.7	14
English Transcription	LRS2 clean (test)	ASR WER1.3	12
Audio-visual speech separation	LRS2 2Mix	SDRi15.9	12
Automatic Visual Speech Recognition	LRS2 clean (test)	WER2.2	12
Lip-syncing	LRS2 1 (test)	LSE-D6.386	12
Video-to-Speech	LRS2 (test)	WER (Word Error Rate)8.93	10
Audio-Visual Speech Recognition	LRS2 50% visual occlusion (test)	WER (Overall)6.4	10
Speech Separation	LRS2-2Mix (test)	GPU RTF (s) (Forward)0.0118	10
Audio-Visual Speech Recognition	Simulated LRS2 19 (test)	WER (-5 dB)5.2	8
Talking Face Generation	LRS2	ID-SIM1	8
Audio-visual speech separation	LRS2-3Mix (test)	SI-SNRi13.7	8
ASR Error Correction	LRS2 (test)	WER2.6	8
Human Speech Generation	LRS2 (test)	LSE-D7.83	7

Showing 25 of 62 rows