TASK	DATASET	MODEL	METRIC NAME	METRIC VALUE	GLOBAL RANK
Emotion Recognition in Conversation	IEMOCAP	SDT	Weighted-F1	74.08	# 1
Emotion Recognition in Conversation	IEMOCAP	SDT	Accuracy	73.95	# 1
Emotion Recognition in Conversation	MELD	SDT	Weighted-F1	66.60	# 12
Emotion Recognition in Conversation	MELD	SDT	Accuracy	67.55	# 5

Badge	Markdown
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/a-transformer-based-model-with-self/emotion-recognition-in-conversation-on)](https://paperswithcode.com/sota/emotion-recognition-in-conversation-on?p=a-transformer-based-model-with-self)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/a-transformer-based-model-with-self/emotion-recognition-in-conversation-on-meld)](https://paperswithcode.com/sota/emotion-recognition-in-conversation-on-meld?p=a-transformer-based-model-with-self)`

A Transformer-Based Model With Self-Distillation for Multimodal Emotion Recognition in Conversations

31 Oct 2023 · Hui Ma, Jian Wang, Hongfei Lin, Bo Zhang, Yijia Zhang, Bo Xu ·

Emotion recognition in conversations (ERC), the task of recognizing the emotion of each utterance in a conversation, is crucial for building empathetic machines. Existing studies focus mainly on capturing context- and speaker-sensitive dependencies on the textual modality but ignore the significance of multimodal information. Different from emotion recognition in textual conversations, capturing intra- and inter-modal interactions between utterances, learning weights between different modalities, and enhancing modal representations play important roles in multimodal ERC. In this paper, we propose a transformer-based model with self-distillation (SDT) for the task. The transformer-based model captures intra- and inter-modal interactions by utilizing intra- and inter-modal transformers, and learns weights between modalities dynamically by designing a hierarchical gated fusion strategy. Furthermore, to learn more expressive modal representations, we treat soft labels of the proposed model as extra training supervision. Specifically, we introduce self-distillation to transfer knowledge of hard and soft labels from the proposed model to each modality. Experiments on IEMOCAP and MELD datasets demonstrate that SDT outperforms previous state-of-the-art baselines.

PDF Abstract

Code

Add Remove Mark official

butterfliesss/sdt official

Tasks

Add Remove

Emotion Recognition

Emotion Recognition in Conversation

Multimodal Emotion Recognition

Datasets

IEMOCAP

MELD

Results from the Paper

Edit

Ranked #1 on Emotion Recognition in Conversation on IEMOCAP

Get a GitHub badge

Task	Dataset	Model	Metric Name	Metric Value	Global Rank	Benchmark
Emotion Recognition in Conversation	IEMOCAP	SDT	Weighted-F1	74.08	# 1	Compare
Emotion Recognition in Conversation	IEMOCAP	SDT	Accuracy	73.95	# 1	Compare
Emotion Recognition in Conversation	MELD	SDT	Weighted-F1	66.60	# 12	Compare
Emotion Recognition in Conversation	MELD	SDT	Accuracy	67.55	# 5	Compare

Methods

Add Remove

Focus

Edit Social Preview

A Transformer-Based Model With Self-Distillation for Multimodal Emotion Recognition in Conversations

Code Edit Add Remove Mark official

Tasks Edit Add Remove

Datasets Edit

Results from the Paper Edit

Methods Edit Add Remove

Code

Add Remove Mark official

Tasks

Add Remove

Datasets

Results from the Paper

Edit

Methods

Add Remove