Chunker diff\'erents types de discours oraux : d\'efis pour l'apprentissage automatique (Chunking different spoken speech types : challenges for machine learning)
Le travail d{\'e}crit le d{\'e}veloppement d{'}un chunker pour l{'}oral par apprentissage supervis{\'e} avec les CRFs, {\`a} partir d{'}un corpus de r{\'e}f{\'e}rence de petite taille et compos{\'e} de productions de nature diff{\'e}rente : monologue pr{\'e}par{\'e} vs discussion spontan{\'e}e. La m{\'e}thodologie respecte les sp{\'e}cificit{\'e}s des donn{\'e}es trait{\'e}es. L{'}apprentissage tient compte des r{\'e}sultats propos{\'e}s par diff{\'e}rents {\'e}tiqueteurs morpho-syntaxiques disponibles sans correction manuelle de leurs r{\'e}sultats. Les exp{\'e}riences montrent que le genre de discours (monologue vs discussion), la nature de discours (spontan{\'e} vs pr{\'e}par{\'e}) et la taille du corpus peuvent influencer les r{\'e}sultats de l{'}apprentissage, ce qui confirme que la nature des donn{\'e}es trait{\'e}es est {\`a} prendre en consid{\'e}ration dans l{'}interpr{\'e}tation des r{\'e}sultats.
PDF Abstract