2 dataset results for Cross-Lingual Document Classification

The RCV1 dataset is a benchmark dataset on text categorization. It is a collection of newswire articles producd by Reuters in 1996-1997. It contains 804,414 manually labeled newswire documents, and categorized with respect to three controlled vocabularies: industries, topics and regions.

321 PAPERS • 6 BENCHMARKS

MLDoc

MLDoc (Multilingual Document Classification Corpus)

Multilingual Document Classification Corpus (MLDoc) is a cross-lingual document classification dataset covering English, German, French, Spanish, Italian, Russian, Japanese and Chinese. It is a subset of the Reuters Corpus Volume 2 selected according to the following design choices:

51 PAPERS • 11 BENCHMARKS

Datasets

2 dataset results for Cross-Lingual Document Classification