VCTK

Benchmarks

Task Name	Dataset Name	SOTA Result
Audio Super-Resolution	VCTK In-domain	LSD0.6	34
Speech Decompression	VCTK (test)	Log Spectral Distance1.01	28
Voice Conversion	VCTK	WER0	27
Phonetic Transcription	VCTK++ (test)	F1 Score93	25
Automatic Speech Recognition	VCTK noisy	WER1.52	24
Text-to-Speech	VCTK	WER1.7	19
Speech Quality Evaluation	VCTK 48 kHz (test)	STOI0.895	18
Speech Enhancement	VCTK Accelerometer 12-bit, 4-16 kHz upsampling (test)	LSD0.87	18
Speech Enhancement	VCTK Vibration sensor 12-bit, 4-16 kHz upsampling (test)	LSD (Log-Spectral Distance)0.84	18
Speech Super-resolution	VCTK 0.92 (test)	LSD0.7	16
Speech Bandwidth Extension	VCTK English	NISQA-MOS4.53	15
Automatic Speech Recognition	VCTK (test)	WER3.47	15
Audio Super-resolution	VCTK Multi-speaker (test)	SNR20	15
Audio Super-resolution	VCTK Single-speaker (test)	SNR19.5	15
Audio-to-Text Retrieval	VCTK A→T	Recall@196.1	15
Pitch Shift	VCTK (10% unseen utterances)	MOS4.05	15
Time-scale modification	VCTK (10% unseen utterances)	MOS3.98	15
Speech Coding	VCTK en	PESQ2.476	14
Text-to-Speech	VCTK 10H budget v0.92 (train)	WER9.9	12
Text-to-Speech	VCTK 5H training budget v0.92	WER (%)8.5	12
Text-to-Speech	VCTK 1H training budget v0.92	WER7.5	12
Text-to-Speech	VCTK 30m budget v0.92 (train)	WER10	12
Text-to-Speech	VCTK 10m budget v0.92 (train)	WER42.2	12
Audio Coding	VCTK	BD-Rate ViSQOL-35.65	12
Speech Coding	VCTK 48 kHz (test)	RTF (CPU)0.142	12

Showing 25 of 110 rows