TASK	DATASET	MODEL	METRIC NAME	METRIC VALUE	GLOBAL RANK
Multi-modal Classification	AudioSet	UAVM	Average mAP	0.504	# 2
Audio Classification	AudioSet	UAVM (Audio + Video)	Test mAP	0.504	# 6
Audio Classification	VGGSound	UAVM (Audio + Video)	Top 1 Accuracy	65.8	# 6
Audio Classification	VGGSound	UAVM (Video Only)	Top 1 Accuracy	49.9	# 19
Audio Classification	VGGSound	UAVM (Audio Only)	Top 1 Accuracy	56.5	# 13
Multi-modal Classification	VGG-Sound	UAVM	Top-1 Accuracy	65.8	# 3

Badge	Markdown
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/uavm-a-unified-model-for-audio-visual/multi-modal-classification-on-audioset)](https://paperswithcode.com/sota/multi-modal-classification-on-audioset?p=uavm-a-unified-model-for-audio-visual)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/uavm-a-unified-model-for-audio-visual/multi-modal-classification-on-vgg-sound)](https://paperswithcode.com/sota/multi-modal-classification-on-vgg-sound?p=uavm-a-unified-model-for-audio-visual)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/uavm-a-unified-model-for-audio-visual/audio-classification-on-audioset)](https://paperswithcode.com/sota/audio-classification-on-audioset?p=uavm-a-unified-model-for-audio-visual)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/uavm-a-unified-model-for-audio-visual/audio-classification-on-vggsound)](https://paperswithcode.com/sota/audio-classification-on-vggsound?p=uavm-a-unified-model-for-audio-visual)`

UAVM: Towards Unifying Audio and Visual Models

29 Jul 2022 · Yuan Gong, Alexander H. Liu, Andrew Rouditchenko, James Glass ·

Conventional audio-visual models have independent audio and video branches. In this work, we unify the audio and visual branches by designing a Unified Audio-Visual Model (UAVM). The UAVM achieves a new state-of-the-art audio-visual event classification accuracy of 65.8% on VGGSound. More interestingly, we also find a few intriguing properties of UAVM that the modality-independent counterparts do not have.

PDF Abstract

Code

Add Remove Mark official

YuanGongND/uavm official

Tasks

Add Remove

Audio Classification

audio-visual learning

Multi-modal Classification

Datasets

AudioSet

VGG-Sound

Results from the Paper

Edit

Ranked #2 on Multi-modal Classification on AudioSet (using extra training data)

Get a GitHub badge

Task	Dataset	Model	Metric Name	Metric Value	Global Rank	Benchmark
Multi-modal Classification	AudioSet	UAVM	Average mAP	0.504	# 2	Compare
Audio Classification	AudioSet	UAVM (Audio + Video)	Test mAP	0.504	# 6	Compare
Audio Classification	VGGSound	UAVM (Audio + Video)	Top 1 Accuracy	65.8	# 6	Compare
Audio Classification	VGGSound	UAVM (Video Only)	Top 1 Accuracy	49.9	# 19	Compare
Audio Classification	VGGSound	UAVM (Audio Only)	Top 1 Accuracy	56.5	# 13	Compare
Multi-modal Classification	VGG-Sound	UAVM	Top-1 Accuracy	65.8	# 3	Compare

Methods

Add Remove

No methods listed for this paper. Add relevant methods here

Edit Social Preview

UAVM: Towards Unifying Audio and Visual Models

Code Edit Add Remove Mark official

Tasks Edit Add Remove

Datasets Edit

Results from the Paper Edit

Methods Edit Add Remove

Code

Add Remove Mark official

Tasks

Add Remove

Datasets

Results from the Paper

Edit

Methods

Add Remove