Les personnes peuvent
formuler la même idée sans altération du contenu de plusieurs façons. La langue est tellement riche qui permet cette variabilité
d'expression définie comme "la paraphrase" et qui représente une difficulté majeure dans le Traitement Automatique de Langues (TAL).
Une tâche intéressante consiste à fusioner plusieurs phrases (qui peuvent être ou non de paraphrases),
qui décrivent le même événement ou la même idée. Elle est connu comme Fusion Multi-Phrase ou Multi-Sentence Fusion (MSF).
Les corpus composés d'ensembles d’énoncés paraphrasés et leur fusion sont très utiles pour construire de systèmes automatiques de production de langage ou de résumé automatique. Cependant ce type de ressources linguistiques est très rare à cause de la difficulté de la tâche et du coût élevé, dont l'importance de sa construction et de sa mise en disposition. Nous avons développé un corpus bilangue d’énoncés en portugais en espagnol en suivant le même protocole de fusion. Ce corpus est distribué sous Licence GPL et a été financé partiellement par la Université d'Avignon et par le projet CHISTERA AMIS. Auteurs: Juan Manuel Torres-Moreno et Elvys Linhares-Pontes, Laboratoire Informatique d'Avignon, France. |
Page mise à jour le 10 mars 2018