TASK	DATASET	MODEL	METRIC NAME	METRIC VALUE	GLOBAL RANK
Audio-Visual Question Answering (AVQA)	AVQA	HCRN+HAVF	Accuracy	89.0	# 3
Visual Question Answering (VQA)	MSRVTT-QA	HCRN	Accuracy	0.356	# 25
Visual Question Answering (VQA)	MSVD-QA	HCRN	Accuracy	0.361	# 30
Video Question Answering	SUTD-TrafficQA	HCRN	1/4	36.49	# 3
Video Question Answering	SUTD-TrafficQA	HCRN	1/2	63.79	# 2

Badge	Markdown
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/hierarchical-conditional-relation-networks/audio-visual-question-answering-avqa-on-avqa)](https://paperswithcode.com/sota/audio-visual-question-answering-avqa-on-avqa?p=hierarchical-conditional-relation-networks)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/hierarchical-conditional-relation-networks/video-question-answering-on-sutd-trafficqa)](https://paperswithcode.com/sota/video-question-answering-on-sutd-trafficqa?p=hierarchical-conditional-relation-networks)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/hierarchical-conditional-relation-networks/visual-question-answering-on-msrvtt-qa-1)](https://paperswithcode.com/sota/visual-question-answering-on-msrvtt-qa-1?p=hierarchical-conditional-relation-networks)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/hierarchical-conditional-relation-networks/visual-question-answering-on-msvd-qa-1)](https://paperswithcode.com/sota/visual-question-answering-on-msvd-qa-1?p=hierarchical-conditional-relation-networks)`

Hierarchical Conditional Relation Networks for Video Question Answering

CVPR 2020 · Thao Minh Le, Vuong Le, Svetha Venkatesh, Truyen Tran ·

Video question answering (VideoQA) is challenging as it requires modeling capacity to distill dynamic visual artifacts and distant relations and to associate them with linguistic concepts. We introduce a general-purpose reusable neural unit called Conditional Relation Network (CRN) that serves as a building block to construct more sophisticated structures for representation and reasoning over video. CRN takes as input an array of tensorial objects and a conditioning feature, and computes an array of encoded output objects. Model building becomes a simple exercise of replication, rearrangement and stacking of these reusable units for diverse modalities and contextual information. This design thus supports high-order relational and multi-step reasoning. The resulting architecture for VideoQA is a CRN hierarchy whose branches represent sub-videos or clips, all sharing the same question as the contextual condition. Our evaluations on well-known datasets achieved new SoTA results, demonstrating the impact of building a general-purpose reasoning unit on complex domains such as VideoQA.

PDF Abstract CVPR 2020 PDF CVPR 2020 Abstract

Code

Add Remove Mark official

thaolmk54/hcrn-videoqa official

128

Tasks

Add Remove

Audio-Visual Question Answering (AVQA)

Question Answering

Relation

Relation Network

Video Question Answering

Visual Question Answering (VQA)

Datasets

MSR-VTT

MSVD

TVQA

MovieQA

TGIF-QA MSRVTT-QA MSVD-QA

SUTD-TrafficQA AVQA

Results from the Paper

Edit

Ranked #3 on Audio-Visual Question Answering (AVQA) on AVQA

Get a GitHub badge

Task	Dataset	Model	Metric Name	Metric Value	Global Rank	Benchmark
Audio-Visual Question Answering (AVQA)	AVQA	HCRN+HAVF	Accuracy	89.0	# 3	Compare
Video Question Answering	SUTD-TrafficQA	HCRN	1/4	36.49	# 3	Compare
Video Question Answering	SUTD-TrafficQA	HCRN	1/2	63.79	# 2	Compare

Results from Other Papers

Task	Dataset	Model	Metric Name	Metric Value	Rank	Source Paper	Compare
Visual Question Answering (VQA)	MSRVTT-QA	HCRN	Accuracy	0.356	# 25		See all
Visual Question Answering (VQA)	MSVD-QA	HCRN	Accuracy	0.361	# 30		See all

Methods

Add Remove

CRN

Edit Social Preview

Hierarchical Conditional Relation Networks for Video Question Answering

Code Edit Add Remove Mark official

Tasks Edit Add Remove

Datasets Edit

Results from the Paper Edit