TASK	DATASET	MODEL	METRIC NAME	METRIC VALUE	GLOBAL RANK
Speech Recognition	Common Voice French	QuartzNet15x5FR (CV-only)	Test WER	12.1%	# 7
Speech Recognition	Common Voice French	ConformerCTC-L (5-gram)	Test WER	8.13%	# 1
Speech Recognition	Common Voice French	ConformerCTC-L (no-LM)	Test WER	10.19 %	# 5
Speech Recognition	Common Voice French	QuartzNet15x5FR (D7)	Test WER	11.0%	# 6
Speech Recognition	Common Voice German	QuartzNet15x5DE (CV-only, 5-gram)	Test WER	7.7%	# 11
Speech Recognition	Common Voice German	QuartzNet15x5DE (CV-only, 5-gram)	Test CER	3.2%	# 6
Speech Recognition	Common Voice German	ConformerCTC-L (5-gram)	Test WER	4.05%	# 3
Speech Recognition	Common Voice German	ConformerCTC-L (5-gram)	Test CER	1.37%	# 1
Speech Recognition	Common Voice German	ConformerCTC-L (no LM)	Test WER	7.33%	# 10
Speech Recognition	Common Voice German	ConformerCTC-L (no LM)	Test CER	2.05%	# 4
Speech Recognition	Common Voice German	QuartzNet15x5DE (D37, 5-gram)	Test WER	6.6%	# 8
Speech Recognition	Common Voice German	QuartzNet15x5DE (D37, 5-gram)	Test CER	2.7%	# 5
Speech Recognition	Common Voice Italian	QuartzNet15x5IT (D5)	Test WER	11.5%	# 2
Speech Recognition	Common Voice Spanish	QuartzNet15x5ES (D8)	Test WER	10.0%	# 6
Speech Recognition	Common Voice Spanish	QuartzNet15x5ES (CV-only)	Test WER	10.5%	# 8
Speech Recognition	Common Voice Spanish	ConformerCTC-L (no-LM)	Test WER	7.46 %	# 5
Speech Recognition	Common Voice Spanish	ConformerCTC-L (5-gram)	Test WER	5.68%	# 3
Speech Recognition	TUDA	QuartzNet15x5DE (D37)	Test WER	10.2%	# 3

Badge	Markdown
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/scribosermo-fast-speech-to-text-models-for/speech-recognition-on-common-voice-french)](https://paperswithcode.com/sota/speech-recognition-on-common-voice-french?p=scribosermo-fast-speech-to-text-models-for)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/scribosermo-fast-speech-to-text-models-for/speech-recognition-on-common-voice-italian)](https://paperswithcode.com/sota/speech-recognition-on-common-voice-italian?p=scribosermo-fast-speech-to-text-models-for)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/scribosermo-fast-speech-to-text-models-for/speech-recognition-on-common-voice-german)](https://paperswithcode.com/sota/speech-recognition-on-common-voice-german?p=scribosermo-fast-speech-to-text-models-for)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/scribosermo-fast-speech-to-text-models-for/speech-recognition-on-common-voice-spanish)](https://paperswithcode.com/sota/speech-recognition-on-common-voice-spanish?p=scribosermo-fast-speech-to-text-models-for)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/scribosermo-fast-speech-to-text-models-for/speech-recognition-on-tuda)](https://paperswithcode.com/sota/speech-recognition-on-tuda?p=scribosermo-fast-speech-to-text-models-for)`

Scribosermo: Fast Speech-to-Text models for German and other Languages

15 Oct 2021 · Daniel Bermuth, Alexander Poeppel, Wolfgang Reif ·

Recent Speech-to-Text models often require a large amount of hardware resources and are mostly trained in English. This paper presents Speech-to-Text models for German, as well as for Spanish and French with special features: (a) They are small and run in real-time on microcontrollers like a RaspberryPi. (b) Using a pretrained English model, they can be trained on consumer-grade hardware with a relatively small dataset. (c) The models are competitive with other solutions and outperform them in German. In this respect, the models combine advantages of other approaches, which only include a subset of the presented features. Furthermore, the paper provides a new library for handling datasets, which is focused on easy extension with additional datasets and shows an optimized way for transfer-learning new languages using a pretrained model from another language with a similar alphabet.

PDF Abstract

Code

Add Remove Mark official

jaco-assistant/scribosermo official

jaco-assistant/corcua official

Jaco-Assistant/deepspeech-polyglot

Tasks

Add Remove

Speech Recognition

Transfer Learning

Datasets

LibriSpeech

Common Voice TUDA

Results from the Paper

Add Remove

Ranked #1 on Speech Recognition on Common Voice French (using extra training data)

Get a GitHub badge

Task	Dataset	Model	Metric Name	Metric Value	Global Rank	Benchmark
Speech Recognition	Common Voice French	QuartzNet15x5FR (CV-only)	Test WER	12.1%	# 7	Compare
Speech Recognition	Common Voice French	ConformerCTC-L (5-gram)	Test WER	8.13%	# 1	Compare
Speech Recognition	Common Voice French	ConformerCTC-L (no-LM)	Test WER	10.19 %	# 5	Compare
Speech Recognition	Common Voice French	QuartzNet15x5FR (D7)	Test WER	11.0%	# 6	Compare
Speech Recognition	Common Voice German	QuartzNet15x5DE (CV-only, 5-gram)	Test WER	7.7%	# 11	Compare
Speech Recognition	Common Voice German	QuartzNet15x5DE (CV-only, 5-gram)	Test CER	3.2%	# 6	Compare
Speech Recognition	Common Voice German	ConformerCTC-L (5-gram)	Test WER	4.05%	# 3	Compare
Speech Recognition	Common Voice German	ConformerCTC-L (5-gram)	Test CER	1.37%	# 1	Compare
Speech Recognition	Common Voice German	ConformerCTC-L (no LM)	Test WER	7.33%	# 10	Compare
Speech Recognition	Common Voice German	ConformerCTC-L (no LM)	Test CER	2.05%	# 4	Compare
Speech Recognition	Common Voice German	QuartzNet15x5DE (D37, 5-gram)	Test WER	6.6%	# 8	Compare
Speech Recognition	Common Voice German	QuartzNet15x5DE (D37, 5-gram)	Test CER	2.7%	# 5	Compare
Speech Recognition	Common Voice Italian	QuartzNet15x5IT (D5)	Test WER	11.5%	# 2	Compare
Speech Recognition	Common Voice Spanish	QuartzNet15x5ES (D8)	Test WER	10.0%	# 6	Compare
Speech Recognition	Common Voice Spanish	QuartzNet15x5ES (CV-only)	Test WER	10.5%	# 8	Compare
Speech Recognition	Common Voice Spanish	ConformerCTC-L (no-LM)	Test WER	7.46 %	# 5	Compare
Speech Recognition	Common Voice Spanish	ConformerCTC-L (5-gram)	Test WER	5.68%	# 3	Compare
Speech Recognition	TUDA	QuartzNet15x5DE (D37)	Test WER	10.2%	# 3	Compare

Methods

Add Remove

No methods listed for this paper. Add relevant methods here

Edit Social Preview

Scribosermo: Fast Speech-to-Text models for German and other Languages

Code Edit Add Remove Mark official

Tasks Edit Add Remove

Datasets Edit

Results from the Paper Edit Add Remove

Methods Edit Add Remove

Code

Add Remove Mark official

Tasks

Add Remove

Datasets

Results from the Paper

Add Remove

Methods

Add Remove