Matching Texts with SUMMA

Horacio Saggion
Abstract:Résumé. On décrit notre approche au problème de l’appariement de résumés/articles scientifiques proposé par le programme DÉfi Fouille de Textes (DEFT). Nous avons développé un algorithme d’appariement de textes qui utilise des ressources quasiment indépendantes de la langue. L’algorithme crée des representations de documents tout en utilisant le système SUMMA et les compare grâce à une mesure de similarité cosinus qui nous permet de sélectionner le meilleure candidat pour former la paire. Nos résultats indiquent que cette approche est très précise et qu’elle pourrait s’appliquer à d’autres langues.
What problem does this paper attempt to address?