TASK	DATASET	MODEL	METRIC NAME	METRIC VALUE	GLOBAL RANK
Visual Question Answering (VQA)	VizWiz 2020 Answerability	CLIP-Single	average_precision	82.86	# 2
Visual Question Answering (VQA)	VizWiz 2020 Answerability	CLIP-Ensemble	average_precision	84.13	# 1
Visual Question Answering (VQA)	VizWiz 2020 VQA	CLIP-Ensemble	overall	61.64	# 2
Visual Question Answering (VQA)	VizWiz 2020 VQA	CLIP-Single	overall	60.66	# 3

Badge	Markdown
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/less-is-more-linear-layers-on-clip-features/visual-question-answering-on-vizwiz-2020)](https://paperswithcode.com/sota/visual-question-answering-on-vizwiz-2020?p=less-is-more-linear-layers-on-clip-features)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/less-is-more-linear-layers-on-clip-features/visual-question-answering-on-vizwiz-2020-vqa)](https://paperswithcode.com/sota/visual-question-answering-on-vizwiz-2020-vqa?p=less-is-more-linear-layers-on-clip-features)`

Less Is More: Linear Layers on CLIP Features as Powerful VizWiz Model

10 Jun 2022 · Fabian Deuser, Konrad Habel, Philipp J. Rösch, Norbert Oswald ·

Current architectures for multi-modality tasks such as visual question answering suffer from their high complexity. As a result, these architectures are difficult to train and require high computational resources. To address these problems we present a CLIP-based architecture that does not require any fine-tuning of the feature extractors. A simple linear classifier is used on the concatenated features of the image and text encoder. During training an auxiliary loss is added which operates on the answer types. The resulting classification is then used as an attention gate on the answer class selection. On the VizWiz 2022 Visual Question Answering Challenge we achieve 60.15 % accuracy on Task 1: Predict Answer to a Visual Question and AP score of 83.78 % on Task 2: Predict Answerability of a Visual Question.

PDF Abstract

Code

Add Remove Mark official

No code implementations yet. Submit your code now

Tasks

Add Remove

Question Answering

Task 2

Visual Question Answering

Visual Question Answering (VQA)

Datasets

VizWiz

Results from the Paper

Edit

Ranked #1 on Visual Question Answering (VQA) on VizWiz 2020 Answerability

Get a GitHub badge

Task	Dataset	Model	Metric Name	Metric Value	Global Rank	Benchmark
Visual Question Answering (VQA)	VizWiz 2020 Answerability	CLIP-Single	average_precision	82.86	# 2	Compare
Visual Question Answering (VQA)	VizWiz 2020 Answerability	CLIP-Ensemble	average_precision	84.13	# 1	Compare
Visual Question Answering (VQA)	VizWiz 2020 VQA	CLIP-Ensemble	overall	61.64	# 2	Compare
Visual Question Answering (VQA)	VizWiz 2020 VQA	CLIP-Single	overall	60.66	# 3	Compare

Methods

Add Remove

Attention Gate • Auxiliary Classifier • CLIP • Linear Layer

Edit Social Preview

Less Is More: Linear Layers on CLIP Features as Powerful VizWiz Model

Code Edit Add Remove Mark official

Tasks Edit Add Remove

Datasets Edit

Results from the Paper Edit

Methods Edit Add Remove

Code

Add Remove Mark official

Tasks

Add Remove

Datasets

Results from the Paper

Edit

Methods

Add Remove