TASK	DATASET	MODEL	METRIC NAME	METRIC VALUE	GLOBAL RANK
Emotion Recognition	Emomusic	Jukebox (Pre-training: CALM)	EmoA	72.1	# 1
Emotion Recognition	Emomusic	Jukebox (Pre-training: CALM)	EmoV	61.7	# 1
Emotion Recognition	Emomusic	CLMR (Pre-training: contrastive)	EmoA	67.8	# 2
Emotion Recognition	Emomusic	CLMR (Pre-training: contrastive)	EmoV	45.8	# 2
Key Detection	Giantsteps	Jukebox (Pre-training: CALM)	Accuracy	66.7	# 2
Key Detection	Giantsteps	CLMR (Pre-training: contrastive)	Accuracy	14.9	# 3
Music Genre Classification	GTZAN	Jukebox (Pre-training: CALM)	Accuracy	79.7	# 3
Music Genre Classification	GTZAN	CLMR (Pre-training: contrastive)	Accuracy	68.6	# 4
Music Tagging	MagnaTagATune	CLMR (Pre-training: contrastive)	MTT_AUC	89.4	# 2
Music Tagging	MagnaTagATune	CLMR (Pre-training: contrastive)	MTT_AP	36.1	# 2
Music Tagging	MagnaTagATune	Jukebox (Pre-training: CALM)	MTT_AUC	91.5	# 1
Music Tagging	MagnaTagATune	Jukebox (Pre-training: CALM)	MTT_AP	41.4	# 1

Badge	Markdown
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/codified-audio-language-modeling-learns/emotion-recognition-on-emomusic)](https://paperswithcode.com/sota/emotion-recognition-on-emomusic?p=codified-audio-language-modeling-learns)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/codified-audio-language-modeling-learns/music-tagging-on-magnatagatune)](https://paperswithcode.com/sota/music-tagging-on-magnatagatune?p=codified-audio-language-modeling-learns)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/codified-audio-language-modeling-learns/key-detection-on-giantsteps)](https://paperswithcode.com/sota/key-detection-on-giantsteps?p=codified-audio-language-modeling-learns)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/codified-audio-language-modeling-learns/music-genre-classification-on-gtzan)](https://paperswithcode.com/sota/music-genre-classification-on-gtzan?p=codified-audio-language-modeling-learns)`

Codified audio language modeling learns useful representations for music information retrieval

12 Jul 2021 · Rodrigo Castellon, Chris Donahue, Percy Liang ·

We demonstrate that language models pre-trained on codified (discretely-encoded) music audio learn representations that are useful for downstream MIR tasks. Specifically, we explore representations from Jukebox (Dhariwal et al. 2020): a music generation system containing a language model trained on codified audio from 1M songs. To determine if Jukebox's representations contain useful information for MIR, we use them as input features to train shallow models on several MIR tasks. Relative to representations from conventional MIR models which are pre-trained on tagging, we find that using representations from Jukebox as input features yields 30% stronger performance on average across four MIR tasks: tagging, genre classification, emotion recognition, and key detection. For key detection, we observe that representations from Jukebox are considerably stronger than those from models pre-trained on tagging, suggesting that pre-training via codified audio language modeling may address blind spots in conventional approaches. We interpret the strength of Jukebox's representations as evidence that modeling audio instead of tags provides richer representations for MIR.

PDF Abstract

Code

Add Remove Mark official

p-lambda/jukemir official

↳ Quickstart in

Colab

160

Tasks

Add Remove

Emotion Recognition

Genre classification

Information Retrieval

Key Detection

Language Modelling

Music Generation

Music Genre Classification

Music Information Retrieval

Music Tagging

Retrieval

Datasets

MagnaTagATune GTZAN Giantsteps Emomusic

Results from the Paper

Edit

Ranked #1 on Emotion Recognition on Emomusic

Get a GitHub badge

Task	Dataset	Model	Metric Name	Metric Value	Global Rank	Benchmark
Emotion Recognition	Emomusic	Jukebox (Pre-training: CALM)	EmoA	72.1	# 1	Compare
Emotion Recognition	Emomusic	Jukebox (Pre-training: CALM)	EmoV	61.7	# 1	Compare
Emotion Recognition	Emomusic	CLMR (Pre-training: contrastive)	EmoA	67.8	# 2	Compare
Emotion Recognition	Emomusic	CLMR (Pre-training: contrastive)	EmoV	45.8	# 2	Compare
Key Detection	Giantsteps	Jukebox (Pre-training: CALM)	Accuracy	66.7	# 2	Compare
Key Detection	Giantsteps	CLMR (Pre-training: contrastive)	Accuracy	14.9	# 3	Compare
Music Genre Classification	GTZAN	Jukebox (Pre-training: CALM)	Accuracy	79.7	# 3	Compare
Music Genre Classification	GTZAN	CLMR (Pre-training: contrastive)	Accuracy	68.6	# 4	Compare
Music Tagging	MagnaTagATune	CLMR (Pre-training: contrastive)	MTT_AUC	89.4	# 2	Compare
Music Tagging	MagnaTagATune	CLMR (Pre-training: contrastive)	MTT_AP	36.1	# 2	Compare
Music Tagging	MagnaTagATune	Jukebox (Pre-training: CALM)	MTT_AUC	91.5	# 1	Compare
Music Tagging	MagnaTagATune	Jukebox (Pre-training: CALM)	MTT_AP	41.4	# 1	Compare

Methods

Add Remove

Convolution • Dense Connections • Dilated Convolution • Jukebox • Layer Normalization • Position-Wise Feed-Forward Layer • Residual Connection • VQ-VAE

Edit Social Preview

Codified audio language modeling learns useful representations for music information retrieval

Code Edit Add Remove Mark official

Tasks Edit Add Remove

Datasets Edit

Results from the Paper Edit

Methods Edit Add Remove

Code

Add Remove Mark official

Tasks

Add Remove

Datasets

Results from the Paper

Edit

Methods

Add Remove