Utilisation d'annotations s\'emantiques pour la validation automatique d'hypoth\`eses dans des conversations t\'el\'ephoniques
Les travaux pr{\'e}sent{\'e}s portent sur l{'}extraction automatique d{'}unit{\'e}s s{\'e}mantiques et l{'}{\'e}valuation de leur pertinence pour des conversations t{\'e}l{\'e}phoniques. Le corpus utilis{\'e} est le corpus fran{\c{c}}ais DECODA. L{'}objectif de la t{\^a}che est de permettre l{'}{\'e}tiquetage automatique en th{\`e}me de chaque conversation. Compte tenu du caract{\`e}re spontan{\'e} de ce type de conversations et de la taille du corpus, nous proposons de recourir {\`a} une strat{\'e}gie semi-supervis{\'e}e fond{\'e}e sur la construction d{'}une ontologie et d{'}un apprentissage actif simple : un annotateur humain analyse non seulement les listes d{'}unit{\'e}s s{\'e}mantiques candidates menant au th{\`e}me mais {\'e}tudie {\'e}galement une petite quantit{\'e} de conversations. La pertinence de la relation unissant les unit{\'e}s s{\'e}mantiques conserv{\'e}es, le sous-th{\`e}me issu de l{'}ontologie et le th{\`e}me annot{\'e} est {\'e}valu{\'e}e par un DNN, prenant en compte une repr{\'e}sentation vectorielle du document. L{'}int{\'e}gration des unit{\'e}s s{\'e}mantiques retenues dans le processus de classification en th{\`e}me am{\'e}liore les performances.
PDF Abstract