TASK	DATASET	MODEL	METRIC NAME	METRIC VALUE	GLOBAL RANK
Situation Recognition	imSitu	ClipSitu	Top-1 Verb	47.23	# 1
Situation Recognition	imSitu	ClipSitu	Top-1 Verb & Value	29.73	# 8
Situation Recognition	imSitu	ClipSitu	Top-5 Verbs	85.69	# 1
Situation Recognition	imSitu	ClipSitu	Top-5 Verbs & Value	68.42	# 1
Grounded Situation Recognition	SWiG	ClipSitu	Top-1 Verb	58.19	# 1
Grounded Situation Recognition	SWiG	ClipSitu	Top-1 Verb & Value	47.23	# 1
Grounded Situation Recognition	SWiG	ClipSitu	Top-1 Verb & Grounded-Value	40.01	# 1
Grounded Situation Recognition	SWiG	ClipSitu	Top-5 Verbs	85.69	# 1
Grounded Situation Recognition	SWiG	ClipSitu	Top-5 Verbs & Value	68.42	# 1
Grounded Situation Recognition	SWiG	ClipSitu	Top-5 Verbs & Grounded-Value	49.78	# 1

Badge	Markdown
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/clipsitu-effectively-leveraging-clip-for/situation-recognition-on-imsitu)](https://paperswithcode.com/sota/situation-recognition-on-imsitu?p=clipsitu-effectively-leveraging-clip-for)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/clipsitu-effectively-leveraging-clip-for/grounded-situation-recognition-on-swig)](https://paperswithcode.com/sota/grounded-situation-recognition-on-swig?p=clipsitu-effectively-leveraging-clip-for)`

ClipSitu: Effectively Leveraging CLIP for Conditional Predictions in Situation Recognition

2 Jul 2023 · Debaditya Roy, Dhruv Verma, Basura Fernando ·

Situation Recognition is the task of generating a structured summary of what is happening in an image using an activity verb and the semantic roles played by actors and objects. In this task, the same activity verb can describe a diverse set of situations as well as the same actor or object category can play a diverse set of semantic roles depending on the situation depicted in the image. Hence a situation recognition model needs to understand the context of the image and the visual-linguistic meaning of semantic roles. Therefore, we leverage the CLIP foundational model that has learned the context of images via language descriptions. We show that deeper-and-wider multi-layer perceptron (MLP) blocks obtain noteworthy results for the situation recognition task by using CLIP image and text embedding features and it even outperforms the state-of-the-art CoFormer, a Transformer-based model, thanks to the external implicit visual-linguistic knowledge encapsulated by CLIP and the expressive power of modern MLP block designs. Motivated by this, we design a cross-attention-based Transformer using CLIP visual tokens that model the relation between textual roles and visual entities. Our cross-attention-based Transformer known as ClipSitu XTF outperforms existing state-of-the-art by a large margin of 14.1\% on semantic role labelling (value) for top-1 accuracy using imSitu dataset. {Similarly, our ClipSitu XTF obtains state-of-the-art situation localization performance.} We will make the code publicly available.

PDF Abstract

Code

Add Remove Mark official

LUNAProject22/CLIPSitu official

Tasks

Add Remove

Grounded Situation Recognition

Situation Recognition

Datasets

VidSitu

Results from the Paper

Edit

Ranked #1 on Situation Recognition on imSitu

Get a GitHub badge

Task	Dataset	Model	Metric Name	Metric Value	Global Rank	Benchmark
Situation Recognition	imSitu	ClipSitu	Top-1 Verb	47.23	# 1	Compare
			Top-1 Verb & Value	29.73	# 8	Compare
			Top-5 Verbs	85.69	# 1	Compare
			Top-5 Verbs & Value	68.42	# 1	Compare
Grounded Situation Recognition	SWiG	ClipSitu	Top-1 Verb	58.19	# 1	Compare
			Top-1 Verb & Value	47.23	# 1	Compare
			Top-1 Verb & Grounded-Value	40.01	# 1	Compare
			Top-5 Verbs	85.69	# 1	Compare
			Top-5 Verbs & Value	68.42	# 1	Compare
			Top-5 Verbs & Grounded-Value	49.78	# 1	Compare

Methods

Add Remove

Absolute Position Encodings • Adam • BPE • CLIP • Dense Connections • Dropout • Label Smoothing • Layer Normalization • Linear Layer • Multi-Head Attention • Position-Wise Feed-Forward Layer • Residual Connection • Scaled Dot-Product Attention • Softmax • Transformer

Edit Social Preview

ClipSitu: Effectively Leveraging CLIP for Conditional Predictions in Situation Recognition

Code Edit Add Remove Mark official

Tasks Edit Add Remove

Datasets Edit

Results from the Paper Edit

Methods Edit Add Remove

Code

Add Remove Mark official

Tasks

Add Remove

Datasets

Results from the Paper

Edit

Methods

Add Remove