Textual Data Clustering and Cluster Naming

Marian-Andrei Rizoiu
Abstract:In this paper we present the research a way of clustering textual data based on the thematics approached in the texts and a manner of finding a suitable, humanly readable name for each group. Previous research done on the field of data clustering and thematic extraction is briefly presented, along with observations of their suitability for the intended purpose, and then we propose an approach to combine the ones that we consider that maximize the effectiveness of the process. Our work is intended for general text files (newspaper articles, forums, chat logs) and takes into account the fact that a text can naturally have multiple thematics, so the clustering must be done in such a fashion that this condition is respected (a text can be part of more than one group). The main idea is to regroup the textual documents using different term weighting schemes (a comparison of which will be presented later in the paper) and from each cluster extract the frequent keyphrases and associate them to the cluster’s centroid. A practical implementation of the algorithm has also been prepared and an expert evaluation was performed to assess the results. Résumé : Dans ce mémoire, nous présentons la recherche que nous avons mené dans le domaine du regroupement de données textuelles selon la thématique développée dans les textes en question et dans celui de la caractérisation de ces groupes d’une façon convenable et humainement lisible. Nous présentons brièvement les recherches des antérieures dans le domaine du regroupement de données et dans celui de l’extraction thématiques. Nous expliquons comment ajuster ces résultats à notre problématique, et nous proposons une facon de combiner les deux approches afin de maximiser l’efficacité de la procédure. Nous travaillons avec des fichiers textuels généraux (articles de journaux, forums, logs de chat), tout en considérant le fait qu’un texte peut naturellement avoir plusieurs thématiques (un texte est susceptible de faire partie de plusieurs groupes). Au-delà de ce travail, nous utilisons plusieurs mesures pour regrouper les documents textuels (une comparaison est présentée plus tard dans ce dossier), et les motifs fréquents sont extraits de chaque groupe puis associés aux centres des groupes. On a également préparé une implémentation pratique de l’algorithme, et une évaluation basée sur des experts a été utilisée pour juger des résultats obtenus.
What problem does this paper attempt to address?