TASK	DATASET	MODEL	METRIC NAME	METRIC VALUE	GLOBAL RANK
Dynamic Facial Expression Recognition	DFEW	MAE-DFER	WAR	74.43	# 3
Dynamic Facial Expression Recognition	DFEW	MAE-DFER	UAR	63.41	# 3
Dynamic Facial Expression Recognition	FERV39k	MAE-DFER	WAR	52.07	# 3
Dynamic Facial Expression Recognition	FERV39k	MAE-DFER	UAR	43.12	# 2
Dynamic Facial Expression Recognition	MAFW	MAE-DFER	WAR	54.31	# 4
Dynamic Facial Expression Recognition	MAFW	MAE-DFER	UAR	41.62	# 4

Badge	Markdown
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/mae-dfer-efficient-masked-autoencoder-for/dynamic-facial-expression-recognition-on)](https://paperswithcode.com/sota/dynamic-facial-expression-recognition-on?p=mae-dfer-efficient-masked-autoencoder-for)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/mae-dfer-efficient-masked-autoencoder-for/dynamic-facial-expression-recognition-on-dfew)](https://paperswithcode.com/sota/dynamic-facial-expression-recognition-on-dfew?p=mae-dfer-efficient-masked-autoencoder-for)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/mae-dfer-efficient-masked-autoencoder-for/dynamic-facial-expression-recognition-on-mafw)](https://paperswithcode.com/sota/dynamic-facial-expression-recognition-on-mafw?p=mae-dfer-efficient-masked-autoencoder-for)`

MAE-DFER: Efficient Masked Autoencoder for Self-supervised Dynamic Facial Expression Recognition

5 Jul 2023 · Licai Sun, Zheng Lian, Bin Liu, JianHua Tao ·

Dynamic facial expression recognition (DFER) is essential to the development of intelligent and empathetic machines. Prior efforts in this field mainly fall into supervised learning paradigm, which is severely restricted by the limited labeled data in existing datasets. Inspired by recent unprecedented success of masked autoencoders (e.g., VideoMAE), this paper proposes MAE-DFER, a novel self-supervised method which leverages large-scale self-supervised pre-training on abundant unlabeled data to largely advance the development of DFER. Since the vanilla Vision Transformer (ViT) employed in VideoMAE requires substantial computation during fine-tuning, MAE-DFER develops an efficient local-global interaction Transformer (LGI-Former) as the encoder. Moreover, in addition to the standalone appearance content reconstruction in VideoMAE, MAE-DFER also introduces explicit temporal facial motion modeling to encourage LGI-Former to excavate both static appearance and dynamic motion information. Extensive experiments on six datasets show that MAE-DFER consistently outperforms state-of-the-art supervised methods by significant margins (e.g., +6.30\% UAR on DFEW and +8.34\% UAR on MAFW), verifying that it can learn powerful dynamic facial representations via large-scale self-supervised pre-training. Besides, it has comparable or even better performance than VideoMAE, while largely reducing the computational cost (about 38\% FLOPs). We believe MAE-DFER has paved a new way for the advancement of DFER and can inspire more relevant research in this field and even other related tasks. Codes and models are publicly available at https://github.com/sunlicai/MAE-DFER.

PDF Abstract

Code

Add Remove Mark official

sunlicai/mae-dfer official

Tasks

Add Remove

Dynamic Facial Expression Recognition

Facial Expression Recognition

Datasets

DFEW FERV39k

MAFW

Results from the Paper

Edit

Ranked #2 on Dynamic Facial Expression Recognition on FERV39k

Get a GitHub badge

Task	Dataset	Model	Metric Name	Metric Value	Global Rank	Benchmark
Dynamic Facial Expression Recognition	DFEW	MAE-DFER	WAR	74.43	# 3	Compare
Dynamic Facial Expression Recognition	DFEW	MAE-DFER	UAR	63.41	# 3	Compare
Dynamic Facial Expression Recognition	FERV39k	MAE-DFER	WAR	52.07	# 3	Compare
Dynamic Facial Expression Recognition	FERV39k	MAE-DFER	UAR	43.12	# 2	Compare
Dynamic Facial Expression Recognition	MAFW	MAE-DFER	WAR	54.31	# 4	Compare
Dynamic Facial Expression Recognition	MAFW	MAE-DFER	UAR	41.62	# 4	Compare

Methods

Add Remove

Absolute Position Encodings • Adam • BPE • Dense Connections • Dropout • Label Smoothing • Layer Normalization • Linear Layer • Multi-Head Attention • Position-Wise Feed-Forward Layer • Residual Connection • Scaled Dot-Product Attention • Softmax • Transformer • Vision Transformer

Edit Social Preview

MAE-DFER: Efficient Masked Autoencoder for Self-supervised Dynamic Facial Expression Recognition

Code Edit Add Remove Mark official

Tasks Edit Add Remove

Datasets Edit

Results from the Paper Edit

Methods Edit Add Remove

Code

Add Remove Mark official

Tasks

Add Remove

Datasets

Results from the Paper

Edit

Methods

Add Remove