Classement de résultats de recherche grâce au calcul d'une distance d'édition et à l'extraction d'informations documentaires

Hang Li,Dmitriy Meyerzon,Vladimir Tankovich,Jun Xu
2009-01-01
Abstract:Une architecture permet d’extraire des informations documentaires des documents constituant les resultats d’une recherche basee sur une chaine de requete, et de calculer une distance d’edition existant entre la chaine de donnees et la chaine de requete. Ladite distance d’edition est utile lors de la determination de la pertinence de chaque document pour le classement des resultats, car cela permet la detection de la quasi-concordance de l’integralite ou d’une partie de la requete. La distance d’edition evalue le degre de proximite de la chaine de requete par rapport a un certain flux de donnees qui comprend des informations documentaires telles que les informations TAUC (titre, texte d’appel, URL, clics), etc. Cette architecture inclut le partage temporel de l’indexation des termes composes de l’URL afin de retrouver plus facilement les termes de la requete. De plus, le filtrage temporel de l’indexation est applique au texte d’appel afin de trouver les N meilleures ancres d’un ou plusieurs des documents recus dans les resultats. Les informations TAUC peuvent etre transmises a un reseau neuronal (a deux couches, par exemple) dans le but d’ameliorer la mesure de la pertinence servant au classement des resultats de recherche.
What problem does this paper attempt to address?