TASK	DATASET	MODEL	METRIC NAME	METRIC VALUE	GLOBAL RANK
Audio Super-Resolution	Piano	U-Net + AFiLM	Log-Spectral Distance	1.5	# 1
Audio Super-Resolution	VCTK Multi-Speaker	U-Net + AFiLM	Log-Spectral Distance	1.7	# 5
Audio Super-Resolution	Voice Bank corpus (VCTK)	U-Net + AFiLM	Log-Spectral Distance	2.3	# 1

Badge	Markdown
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/self-attention-for-audio-super-resolution/audio-super-resolution-on-piano-1)](https://paperswithcode.com/sota/audio-super-resolution-on-piano-1?p=self-attention-for-audio-super-resolution)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/self-attention-for-audio-super-resolution/audio-super-resolution-on-voice-bank-corpus-1)](https://paperswithcode.com/sota/audio-super-resolution-on-voice-bank-corpus-1?p=self-attention-for-audio-super-resolution)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/self-attention-for-audio-super-resolution/audio-super-resolution-on-vctk-multi-speaker-1)](https://paperswithcode.com/sota/audio-super-resolution-on-vctk-multi-speaker-1?p=self-attention-for-audio-super-resolution)`

Self-Attention for Audio Super-Resolution

26 Aug 2021 · Nathanaël Carraz Rakotonirina ·

Convolutions operate only locally, thus failing to model global interactions. Self-attention is, however, able to learn representations that capture long-range dependencies in sequences. We propose a network architecture for audio super-resolution that combines convolution and self-attention. Attention-based Feature-Wise Linear Modulation (AFiLM) uses self-attention mechanism instead of recurrent neural networks to modulate the activations of the convolutional model. Extensive experiments show that our model outperforms existing approaches on standard benchmarks. Moreover, it allows for more parallelization resulting in significantly faster training.

PDF Abstract

Code

Add Remove Mark official

ncarraz/AFILM official

Tasks

Add Remove

Audio Super-Resolution

Super-Resolution

Datasets

VCTK

Results from the Paper

Edit

Ranked #1 on Audio Super-Resolution on Voice Bank corpus (VCTK) (using extra training data)

Get a GitHub badge

Task	Dataset	Model	Metric Name	Metric Value	Global Rank	Benchmark
Audio Super-Resolution	Piano	U-Net + AFiLM	Log-Spectral Distance	1.5	# 1	Compare
Audio Super-Resolution	VCTK Multi-Speaker	U-Net + AFiLM	Log-Spectral Distance	1.7	# 5	Compare
Audio Super-Resolution	Voice Bank corpus (VCTK)	U-Net + AFiLM	Log-Spectral Distance	2.3	# 1	Compare

Methods

Add Remove

1x1 Convolution

Edit Social Preview

Self-Attention for Audio Super-Resolution

Code Edit Add Remove Mark official

Tasks Edit Add Remove

Datasets Edit

Results from the Paper Edit

Methods Edit Add Remove

Code

Add Remove Mark official

Tasks

Add Remove

Datasets

Results from the Paper

Edit

Methods

Add Remove