4 dataset results for Object Detection AND Texts AND English

DVQA (Data Visualizations via Question Answering)

DVQA is a synthetic question-answering dataset on images of bar-charts.

32 PAPERS • 1 BENCHMARK

ELEVATER

ELEVATER (Evaluation of Language-augmented Visual Task-level Transfer)

The ELEVATER benchmark is a collection of resources for training, evaluating, and analyzing language-image models on image classification and object detection. ELEVATER consists of:

22 PAPERS • 2 BENCHMARKS

Open Images V7

Open Images is a computer vision dataset covering ~9 million images with labels spanning thousands of object categories. A subset of 1.9M includes diverse annotations types.

4 PAPERS • NO BENCHMARKS YET

MSDA (Multi-source domain adaptation dataset for text recognition)

5 domains: synthetic domain, document domain, street view domain, handwritten domain, and car license domain over five million images

2 PAPERS • 2 BENCHMARKS

Datasets

4 dataset results for Object Detection AND Texts AND English