TASK	DATASET	MODEL	METRIC NAME	METRIC VALUE	GLOBAL RANK
Facial Expression Recognition (FER)	AffectNet	ViT-tiny	Accuracy (8 emotion)	58.28	# 24
Facial Expression Recognition (FER)	AffectNet	Vit-base + MAE	Accuracy (8 emotion)	62.42	# 7
Facial Expression Recognition (FER)	AffectNet	ViT-base	Accuracy (8 emotion)	57.99	# 26
Facial Expression Recognition (FER)	FER+	ViT-tiny	Accuracy	88.56	# 10
Facial Expression Recognition (FER)	FER+	Vit-base + MAE	Accuracy	90.18	# 5
Facial Expression Recognition (FER)	FER+	ViT-base	Accuracy	88.91	# 9
Facial Expression Recognition (FER)	RAF-DB	ViT-tiny	Overall Accuracy	87.03	# 19
Facial Expression Recognition (FER)	RAF-DB	ViT-base + MAE	Overall Accuracy	91.07	# 8
Facial Expression Recognition (FER)	RAF-DB	ViT-base	Overall Accuracy	87.22	# 18

Badge	Markdown
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/facial-expression-recognition-using-vanilla/facial-expression-recognition-on-fer-1)](https://paperswithcode.com/sota/facial-expression-recognition-on-fer-1?p=facial-expression-recognition-using-vanilla)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/facial-expression-recognition-using-vanilla/facial-expression-recognition-on-affectnet)](https://paperswithcode.com/sota/facial-expression-recognition-on-affectnet?p=facial-expression-recognition-using-vanilla)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/facial-expression-recognition-using-vanilla/facial-expression-recognition-on-raf-db)](https://paperswithcode.com/sota/facial-expression-recognition-on-raf-db?p=facial-expression-recognition-using-vanilla)`

Emotion Separation and Recognition from a Facial Expression by Generating the Poker Face with Vision Transformers

22 Jul 2022 · Jia Li, Jiantao Nie, Dan Guo, Richang Hong, Meng Wang ·

Representation learning and feature disentanglement have recently attracted much research interests in facial expression recognition. The ubiquitous ambiguity of emotion labels is detrimental to those methods based on conventional supervised representation learning. Meanwhile, directly learning the mapping from a facial expression image to an emotion label lacks explicit supervision signals of facial details. In this paper, we propose a novel FER model, called Poker Face Vision Transformer or PF-ViT, to separate and recognize the disturbance-agnostic emotion from a static facial image via generating its corresponding poker face without the need for paired images. Here, we regard an expressive face as the comprehensive result of a set of facial muscle movements on one's poker face (i.e., emotionless face), inspired by Facial Action Coding System. The proposed PF-ViT leverages vanilla Vision Transformers, and are firstly pre-trained as Masked Autoencoders on a large facial expression dataset without emotion labels, obtaining excellent representations. It mainly consists of five components: 1) an encoder mapping the facial expression to a complete representation, 2) a separator decomposing the representation into an emotional component and an orthogonal residue, 3) a generator that can reconstruct the expressive face and synthesize the poker face, 4) a discriminator distinguishing the fake face produced by the generator, trained adversarially with the encoder and generator, 5) a classification head recognizing the emotion. Quantitative and qualitative results demonstrate the effectiveness of our method, which trumps the state-of-the-art methods on four popular FER testing sets.

PDF Abstract

Code

Add Remove Mark official

No code implementations yet. Submit your code now

Tasks

Add Remove

Disentanglement

Facial Expression Recognition

Facial Expression Recognition (FER)

Representation Learning

Datasets

AffectNet

MS-Celeb-1M

RAF-DB

FER+

Results from the Paper

Edit

Ranked #5 on Facial Expression Recognition (FER) on FER+

Get a GitHub badge

Task	Dataset	Model	Metric Name	Metric Value	Global Rank	Benchmark
Facial Expression Recognition (FER)	AffectNet	ViT-tiny	Accuracy (8 emotion)	58.28	# 24	Compare
Facial Expression Recognition (FER)	AffectNet	Vit-base + MAE	Accuracy (8 emotion)	62.42	# 7	Compare
Facial Expression Recognition (FER)	AffectNet	ViT-base	Accuracy (8 emotion)	57.99	# 26	Compare
Facial Expression Recognition (FER)	FER+	ViT-tiny	Accuracy	88.56	# 10	Compare
Facial Expression Recognition (FER)	FER+	Vit-base + MAE	Accuracy	90.18	# 5	Compare
Facial Expression Recognition (FER)	FER+	ViT-base	Accuracy	88.91	# 9	Compare
Facial Expression Recognition (FER)	RAF-DB	ViT-tiny	Overall Accuracy	87.03	# 19	Compare
Facial Expression Recognition (FER)	RAF-DB	ViT-base + MAE	Overall Accuracy	91.07	# 8	Compare
Facial Expression Recognition (FER)	RAF-DB	ViT-base	Overall Accuracy	87.22	# 18	Compare

Methods

Add Remove

Absolute Position Encodings • Adam • AutoEncoder • BPE • Dropout • Label Smoothing • MAE • Position-Wise Feed-Forward Layer • Softmax • Transformer • Vision Transformer

Edit Social Preview

Emotion Separation and Recognition from a Facial Expression by Generating the Poker Face with Vision Transformers

Code Edit Add Remove Mark official

Tasks Edit Add Remove

Datasets Edit

Results from the Paper Edit

Methods Edit Add Remove

Code

Add Remove Mark official

Tasks

Add Remove

Datasets

Results from the Paper

Edit

Methods

Add Remove