CCMatrix

Introduced by Schwenk et al. in CCMatrix: Mining Billions of High-Quality Parallel Sentences on the WEB

CCMatrix uses ten snapshots of a curated common crawl corpus (Wenzek et al., 2019) totalling 32.7 billion unique sentences.

Source: CCMatrix: Mining Billions of High-Quality Parallel Sentences on the WEB

Homepage

Benchmarks

Add a new result Link an existing benchmark

Trend	Task	Dataset Variant	Best Model	Paper	Code
	Sequence-to-sequence Language Modeling	CCMatrix	t5-base-finetuned-it-to-en

Papers

Paper	Code	Results	Date	Stars

Dataset Loaders

Add Remove

huggingface/datasets (ccmatrix)

18,357

huggingface/datasets (ccmatrix)

18,357

facebookresearch/LASER

3,516

Tasks

Text Generation
Sequence-to-sequence Language Modeling
Unsupervised Machine Translation

Similar Datasets

PPC

XLEnt

WikiMatrix

IPAC

Usage

License

Unknown

CCMatrix

Benchmarks

Add a new result Link an existing benchmark

Papers

Dataset Loaders

Add Remove

Tasks

Similar Datasets

PPC

XLEnt

WikiMatrix

IPAC

Usage

License

Modalities

Languages

CCMatrix

Benchmarks Edit Add a new result Link an existing benchmark

Papers

Dataset Loaders Edit Add Remove

Tasks Edit

Similar Datasets

PPC

XLEnt

WikiMatrix

IPAC

Usage

License Edit

Modalities Edit

Languages Edit

Benchmarks

Add a new result Link an existing benchmark

Dataset Loaders

Add Remove

Tasks

License

Modalities

Languages