2 dataset results for segmentation AND Texts AND Hungarian

Tilde MODEL Corpus (Tilde Multilingual Open Data for European Languages)

…It contains over 10M segments of multilingual open data. The data has been collected from sites allowing free use and reuse of its content, as well as from Public Sector web sites.

2 PAPERS • NO BENCHMARKS YET

Multilingual Dataset for Training and Evaluating Diacritics Restoration Systems

…Data are segmented into sentences which are further word tokenized.

2 PAPERS • 12 BENCHMARKS

Datasets

2 dataset results for segmentation AND Texts AND Hungarian