TASK	DATASET	MODEL	METRIC NAME	METRIC VALUE	GLOBAL RANK
Situation Recognition	imSitu	RNN + Fusion	Top-1 Verb	35.9	# 10
Situation Recognition	imSitu	RNN + Fusion	Top-1 Verb & Value	27.45	# 10
Situation Recognition	imSitu	RNN + Fusion	Top-5 Verbs	63.08	# 9
Situation Recognition	imSitu	RNN + Fusion	Top-5 Verbs & Value	46.88	# 9
Grounded Situation Recognition	SWiG	RNN + Fusion	Top-1 Verb	35.9	# 10
Grounded Situation Recognition	SWiG	RNN + Fusion	Top-1 Verb & Value	27.45	# 10
Grounded Situation Recognition	SWiG	RNN + Fusion	Top-5 Verbs	63.08	# 9
Grounded Situation Recognition	SWiG	RNN + Fusion	Top-5 Verbs & Value	46.88	# 9

Badge	Markdown
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/recurrent-models-for-situation-recognition/situation-recognition-on-imsitu)](https://paperswithcode.com/sota/situation-recognition-on-imsitu?p=recurrent-models-for-situation-recognition)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/recurrent-models-for-situation-recognition/grounded-situation-recognition-on-swig)](https://paperswithcode.com/sota/grounded-situation-recognition-on-swig?p=recurrent-models-for-situation-recognition)`

Recurrent Models for Situation Recognition

ICCV 2017 · Arun Mallya, Svetlana Lazebnik ·

This work proposes Recurrent Neural Network (RNN) models to predict structured 'image situations' -- actions and noun entities fulfilling semantic roles related to the action. In contrast to prior work relying on Conditional Random Fields (CRFs), we use a specialized action prediction network followed by an RNN for noun prediction. Our system obtains state-of-the-art accuracy on the challenging recent imSitu dataset, beating CRF-based models, including ones trained with additional data. Further, we show that specialized features learned from situation prediction can be transferred to the task of image captioning to more accurately describe human-object interactions.

PDF Abstract ICCV 2017 PDF ICCV 2017 Abstract

Code

Add Remove Mark official

No code implementations yet. Submit your code now

Tasks

Add Remove

Grounded Situation Recognition

Human-Object Interaction Detection

Image Captioning

Situation Recognition

Datasets

MS COCO

Visual Question Answering

HICO

Results from the Paper

Edit

Ranked #10 on Grounded Situation Recognition on SWiG

Get a GitHub badge

Task	Dataset	Model	Metric Name	Metric Value	Global Rank	Benchmark
Situation Recognition	imSitu	RNN + Fusion	Top-1 Verb	35.9	# 10	Compare
			Top-1 Verb & Value	27.45	# 10	Compare
			Top-5 Verbs	63.08	# 9	Compare
			Top-5 Verbs & Value	46.88	# 9	Compare
Grounded Situation Recognition	SWiG	RNN + Fusion	Top-1 Verb	35.9	# 10	Compare
			Top-1 Verb & Value	27.45	# 10	Compare
			Top-5 Verbs	63.08	# 9	Compare
			Top-5 Verbs & Value	46.88	# 9	Compare

Methods

Add Remove

No methods listed for this paper. Add relevant methods here

Edit Social Preview

Recurrent Models for Situation Recognition

Code Edit Add Remove Mark official

Tasks Edit Add Remove

Datasets Edit

Results from the Paper Edit

Methods Edit Add Remove

Code

Add Remove Mark official

Tasks

Add Remove

Datasets

Results from the Paper

Edit

Methods

Add Remove