TASK	DATASET	MODEL	METRIC NAME	METRIC VALUE	GLOBAL RANK
Dynamic Facial Expression Recognition	DFEW	HiCMAE-T(V)	WAR	71.24	# 8
Dynamic Facial Expression Recognition	DFEW	HiCMAE-T(V)	UAR	59.14	# 8
Dynamic Facial Expression Recognition	DFEW	HiCMAE-S(V)	WAR	72.20	# 7
Dynamic Facial Expression Recognition	DFEW	HiCMAE-S(V)	UAR	61.37	# 6
Dynamic Facial Expression Recognition	DFEW	HiCMAE-B(V)	WAR	73.10	# 5
Dynamic Facial Expression Recognition	DFEW	HiCMAE-B(V)	UAR	61.92	# 5
Dynamic Facial Expression Recognition	MAFW	HiCMAE-B(V)	WAR	54.84	# 3
Dynamic Facial Expression Recognition	MAFW	HiCMAE-B(V)	UAR	42.10	# 3
Dynamic Facial Expression Recognition	MAFW	HiCMAE-T(V)	WAR	52.86	# 8
Dynamic Facial Expression Recognition	MAFW	HiCMAE-T(V)	UAR	39.70	# 8
Dynamic Facial Expression Recognition	MAFW	HiCMAE-S(V)	WAR	53.41	# 7
Dynamic Facial Expression Recognition	MAFW	HiCMAE-S(V)	UAR	41.31	# 5

Badge	Markdown
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/hicmae-hierarchical-contrastive-masked/dynamic-facial-expression-recognition-on-mafw)](https://paperswithcode.com/sota/dynamic-facial-expression-recognition-on-mafw?p=hicmae-hierarchical-contrastive-masked)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/hicmae-hierarchical-contrastive-masked/dynamic-facial-expression-recognition-on-dfew)](https://paperswithcode.com/sota/dynamic-facial-expression-recognition-on-dfew?p=hicmae-hierarchical-contrastive-masked)`

HiCMAE: Hierarchical Contrastive Masked Autoencoder for Self-Supervised Audio-Visual Emotion Recognition

11 Jan 2024 · Licai Sun, Zheng Lian, Bin Liu, JianHua Tao ·

Audio-Visual Emotion Recognition (AVER) has garnered increasing attention in recent years for its critical role in creating emotion-ware intelligent machines. Previous efforts in this area are dominated by the supervised learning paradigm. Despite significant progress, supervised learning is meeting its bottleneck due to the longstanding data scarcity issue in AVER. Motivated by recent advances in self-supervised learning, we propose Hierarchical Contrastive Masked Autoencoder (HiCMAE), a novel self-supervised framework that leverages large-scale self-supervised pre-training on vast unlabeled audio-visual data to promote the advancement of AVER. Following prior arts in self-supervised audio-visual representation learning, HiCMAE adopts two primary forms of self-supervision for pre-training, namely masked data modeling and contrastive learning. Unlike them which focus exclusively on top-layer representations while neglecting explicit guidance of intermediate layers, HiCMAE develops a three-pronged strategy to foster hierarchical audio-visual feature learning and improve the overall quality of learned representations. To verify the effectiveness of HiCMAE, we conduct extensive experiments on 9 datasets covering both categorical and dimensional AVER tasks. Experimental results show that our method significantly outperforms state-of-the-art supervised and self-supervised audio-visual methods, which indicates that HiCMAE is a powerful audio-visual emotion representation learner. Codes and models will be publicly available at https://github.com/sunlicai/HiCMAE.

PDF Abstract

Code

Add Remove Mark official

sunlicai/hicmae official

Tasks

Add Remove

Contrastive Learning

Dynamic Facial Expression Recognition

Emotion Recognition

Representation Learning

Self-Supervised Learning

Datasets

IEMOCAP

VoxCeleb2

MSP-IMPROV DFEW RAVDESS

MAFW

AVCAffe

Results from the Paper

Add Remove

Ranked #3 on Dynamic Facial Expression Recognition on MAFW

Get a GitHub badge

Task	Dataset	Model	Metric Name	Metric Value	Global Rank	Benchmark
Dynamic Facial Expression Recognition	DFEW	HiCMAE-T(V)	WAR	71.24	# 8	Compare
Dynamic Facial Expression Recognition	DFEW	HiCMAE-T(V)	UAR	59.14	# 8	Compare
Dynamic Facial Expression Recognition	DFEW	HiCMAE-S(V)	WAR	72.20	# 7	Compare
Dynamic Facial Expression Recognition	DFEW	HiCMAE-S(V)	UAR	61.37	# 6	Compare
Dynamic Facial Expression Recognition	DFEW	HiCMAE-B(V)	WAR	73.10	# 5	Compare
Dynamic Facial Expression Recognition	DFEW	HiCMAE-B(V)	UAR	61.92	# 5	Compare
Dynamic Facial Expression Recognition	MAFW	HiCMAE-B(V)	WAR	54.84	# 3	Compare
Dynamic Facial Expression Recognition	MAFW	HiCMAE-B(V)	UAR	42.10	# 3	Compare
Dynamic Facial Expression Recognition	MAFW	HiCMAE-T(V)	WAR	52.86	# 8	Compare
Dynamic Facial Expression Recognition	MAFW	HiCMAE-T(V)	UAR	39.70	# 8	Compare
Dynamic Facial Expression Recognition	MAFW	HiCMAE-S(V)	WAR	53.41	# 7	Compare
Dynamic Facial Expression Recognition	MAFW	HiCMAE-S(V)	UAR	41.31	# 5	Compare

Methods

Add Remove

AutoEncoder • Focus

Edit Social Preview

HiCMAE: Hierarchical Contrastive Masked Autoencoder for Self-Supervised Audio-Visual Emotion Recognition

Code Edit Add Remove Mark official

Tasks Edit Add Remove

Datasets Edit

Results from the Paper Edit Add Remove

Methods Edit Add Remove

Code

Add Remove Mark official

Tasks

Add Remove

Datasets

Results from the Paper

Add Remove

Methods

Add Remove