MCSCSet

Introduced by Jiang et al. in MCSCSet: A Specialist-annotated Dataset for Medical-domain Chinese Spelling Correction

MCSCSet is a large-scale specialist-annotated dataset, designed for the task of Medical-domain Chinese Spelling Correction that contains about 200k samples. MCSCSet involves: i) extensive real-world medical queries collected from Tencent Yidian, ii) corresponding misspelled sentences manually annotated by medical specialists.

Source: MCSCSet: A Specialist-annotated Dataset for Medical-domain Chinese Spelling Correction

Homepage

Benchmarks

Add a new result Link an existing benchmark

No benchmarks yet. Start a new benchmark or link an existing one.

Papers

Paper	Code	Results	Date	Stars

Dataset Loaders

Add Remove

No data loaders found. You can submit your data loader here.

Tasks

Optical Character Recognition (OCR)
Spelling Correction

Similar Datasets

MuCGEC

Source: https://arxiv.org/pdf/2210.11720v1.pdf.

Usage

MCSCSet

Benchmarks Edit Add a new result Link an existing benchmark

Papers

Dataset Loaders Edit Add Remove

Tasks Edit

Similar Datasets

MuCGEC

Usage

License Edit

Modalities Edit

Languages Edit

Benchmarks

Add a new result Link an existing benchmark

Dataset Loaders

Add Remove

Tasks

License

Modalities

Languages