TASK	DATASET	MODEL	METRIC NAME	METRIC VALUE	GLOBAL RANK
Speech Recognition	EasyCom	ReVISE (bf)	WER (%)	52.1	# 1
Speech Recognition	EasyCom	ReVISE (ch2)	WER (%)	55.0	# 2
Speech Recognition	EasyCom	Demucs (bf)	WER (%)	69.8	# 4
Speech Enhancement	EasyCom	Demucs (ch2)	Audio Quality MOS	2.95	# 3
Speech Recognition	EasyCom	Demucs (ch2)	WER (%)	86.8	# 5
Speech Enhancement	EasyCom	Demucs (bf)	Audio Quality MOS	2.39	# 4
Speech Enhancement	EasyCom	ReVISE (bf)	Audio Quality MOS	4.11	# 2
Speech Enhancement	EasyCom	ReVISE (ch2)	Audio Quality MOS	4.19	# 1

Badge	Markdown
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/revise-self-supervised-speech-resynthesis/speech-recognition-on-easycom)](https://paperswithcode.com/sota/speech-recognition-on-easycom?p=revise-self-supervised-speech-resynthesis)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/revise-self-supervised-speech-resynthesis/speech-enhancement-on-easycom)](https://paperswithcode.com/sota/speech-enhancement-on-easycom?p=revise-self-supervised-speech-resynthesis)`

ReVISE: Self-Supervised Speech Resynthesis with Visual Input for Universal and Generalized Speech Enhancement

21 Dec 2022 · Wei-Ning Hsu, Tal Remez, Bowen Shi, Jacob Donley, Yossi Adi ·

Prior works on improving speech quality with visual input typically study each type of auditory distortion separately (e.g., separation, inpainting, video-to-speech) and present tailored algorithms. This paper proposes to unify these subjects and study Generalized Speech Enhancement, where the goal is not to reconstruct the exact reference clean signal, but to focus on improving certain aspects of speech. In particular, this paper concerns intelligibility, quality, and video synchronization. We cast the problem as audio-visual speech resynthesis, which is composed of two steps: pseudo audio-visual speech recognition (P-AVSR) and pseudo text-to-speech synthesis (P-TTS). P-AVSR and P-TTS are connected by discrete units derived from a self-supervised speech model. Moreover, we utilize self-supervised audio-visual speech model to initialize P-AVSR. The proposed model is coined ReVISE. ReVISE is the first high-quality model for in-the-wild video-to-speech synthesis and achieves superior performance on all LRS3 audio-visual enhancement tasks with a single model. To demonstrates its applicability in the real world, ReVISE is also evaluated on EasyCom, an audio-visual benchmark collected under challenging acoustic conditions with only 1.6 hours of training data. Similarly, ReVISE greatly suppresses noise and improves quality. Project page: https://wnhsu.github.io/ReVISE.

PDF Abstract

Code

Add Remove Mark official

No code implementations yet. Submit your code now

Tasks

Add Remove

Audio-Visual Speech Recognition

Resynthesis

Speech Enhancement

speech-recognition

Speech Recognition

Speech Synthesis

Text-To-Speech Synthesis

Video Synchronization

Visual Speech Recognition

Datasets

LJSpeech

EasyCom

Results from the Paper

Edit

Ranked #1 on Speech Recognition on EasyCom

Get a GitHub badge

Task	Dataset	Model	Metric Name	Metric Value	Global Rank	Benchmark
Speech Recognition	EasyCom	ReVISE (bf)	WER (%)	52.1	# 1	Compare
Speech Recognition	EasyCom	ReVISE (ch2)	WER (%)	55.0	# 2	Compare
Speech Recognition	EasyCom	Demucs (bf)	WER (%)	69.8	# 4	Compare
Speech Enhancement	EasyCom	Demucs (ch2)	Audio Quality MOS	2.95	# 3	Compare
Speech Recognition	EasyCom	Demucs (ch2)	WER (%)	86.8	# 5	Compare
Speech Enhancement	EasyCom	Demucs (bf)	Audio Quality MOS	2.39	# 4	Compare
Speech Enhancement	EasyCom	ReVISE (bf)	Audio Quality MOS	4.11	# 2	Compare
Speech Enhancement	EasyCom	ReVISE (ch2)	Audio Quality MOS	4.19	# 1	Compare

Methods

Add Remove

No methods listed for this paper. Add relevant methods here

Edit Social Preview

ReVISE: Self-Supervised Speech Resynthesis with Visual Input for Universal and Generalized Speech Enhancement

Code Edit Add Remove Mark official

Tasks Edit Add Remove

Datasets Edit

Results from the Paper Edit

Methods Edit Add Remove

Code

Add Remove Mark official

Tasks

Add Remove

Datasets

Results from the Paper

Edit

Methods

Add Remove