Les mod\`eles de langue contextuels Camembert pour le fran\ccais : impact de la taille et de l'h\'et\'erog\'en\'eit\'e des donn\'ees d'entrainement (C AMEM BERT Contextual Language Models for French: Impact of Training Data Size and Heterogeneity )
Les mod{\`e}les de langue neuronaux contextuels sont d{\'e}sormais omnipr{\'e}sents en traitement automatique des langues. Jusqu{'}{\`a} r{\'e}cemment, la plupart des mod{\`e}les disponibles ont {\'e}t{\'e} entra{\^\i}n{\'e}s soit sur des donn{\'e}es en anglais, soit sur la concat{\'e}nation de donn{\'e}es dans plusieurs langues. L{'}utilisation pratique de ces mod{\`e}les {---} dans toutes les langues sauf l{'}anglais {---} {\'e}tait donc limit{\'e}e. La sortie r{\'e}cente de plusieurs mod{\`e}les monolingues fond{\'e}s sur BERT (Devlin et al., 2019), notamment pour le fran{\c{c}}ais, a d{\'e}montr{\'e} l{'}int{\'e}r{\^e}t de ces mod{\`e}les en am{\'e}liorant l{'}{\'e}tat de l{'}art pour toutes les t{\^a}ches {\'e}valu{\'e}es. Dans cet article, {\`a} partir d{'}exp{\'e}riences men{\'e}es sur CamemBERT (Martin et al., 2019), nous montrons que l{'}utilisation de donn{\'e}es {\`a} haute variabilit{\'e} est pr{\'e}f{\'e}rable {\`a} des donn{\'e}es plus uniformes. De fa{\c{c}}on plus surprenante, nous montrons que l{'}utilisation d{'}un ensemble relativement petit de donn{\'e}es issues du web (4Go) donne des r{\'e}sultats aussi bons que ceux obtenus {\`a} partir d{'}ensembles de donn{\'e}es plus grands de deux ordres de grandeurs (138Go).
PDF Abstract