Strat\'egies de s\'election des exemples pour l'apprentissage actif avec des champs al\'eatoires conditionnels
Beaucoup de probl{\`e}mes de TAL sont d{\'e}sormais mod{\'e}lis{\'e}s comme des t{\^a}ches d{'}apprentissage supervis{\'e}. De ce fait, le co{\^u}t des annotations des exemples par l{'}expert repr{\'e}sente un probl{\`e}me important. L{'}apprentissage actif (active learning) apporte un cadre {\`a} ce probl{\`e}me, permettant de contr{\^o}ler le co{\^u}t d{'}annotation tout en maximisant, on l{'}esp{\`e}re, la performance de la t{\^a}che vis{\'e}e, mais repose sur le choix difficile des exemples {\`a} soumettre {\`a} l{'}expert. Dans cet article, nous examinons et proposons des strat{\'e}gies de s{\'e}lection des exemples pour le cas sp{\'e}cifique des champs al{\'e}atoires conditionnels (Conditional Random Fields, CRF), outil largement utilis{\'e} en TAL. Nous proposons d{'}une part une m{\'e}thode simple corrigeant un biais de certaines m{\'e}thodes de l{'}{\'e}tat de l{'}art. D{'}autre part, nous d{\'e}taillons une m{\'e}thode originale de s{\'e}lection s{'}appuyant sur un crit{\`e}re de respect des proportions dans les jeux de donn{\'e}es manipul{\'e}s. Le bien- fond{\'e} de ces propositions est v{\'e}rifi{\'e} au travers de plusieurs t{\^a}ches et jeux de donn{\'e}es, incluant reconnaissance d{'}entit{\'e}s nomm{\'e}es, chunking, phon{\'e}tisation, d{\'e}sambigu{\"\i}sation de sens.
PDF Abstract