Extraction En Langue Chinoise D'actions Spatiotemporalisées Réalisées Par Des Personnes Ou Des Organismes

Zhen Wang
2016-01-01
Abstract:La these a deux objectifs : le premier est de developper un analyseur qui permet d'analyser automatiquement des sources textuelles en chinois simplifie afin de segmenter les textes en mots et de les etiqueter par categories grammaticales, ainsi que de construire les relations syntaxiques entre les mots. Le deuxieme est d'extraire des informations autour des entites et des actions qui nous interessent a partir des textes analyses. Afin d'atteindre ces deux objectifs, nous avons traite principalement les problematiques suivantes : les ambiguites de segmentation, la categorisation ; le traitement des mots inconnus dans les textes chinois ; l'ambiguite de l'analyse syntaxique ; la reconnaissance et le typage des entites nommees. Le texte d'entree est traite phrase par phrase. L'analyseur commence par un traitement typographique au sein des phrases afin d'identifier les ecritures latines et les chiffres. Ensuite, nous segmentons la phrase en mots a l'aide de dictionnaires. Grâce aux regles linguistiques, nous creons des hypotheses de noms propres, changeons les poids des categories ou des mots selon leur contextes gauches ou/et droits. Un modele de langue n-gramme elabore a partir d'un corpus d'apprentissage permet de selectionner le meilleur resultat de segmentation et de categorisation. Une analyse en dependance est utilisee pour marquer les relations entre les mots. Nous effectuons une premiere identification d'entites nommees a la fin de l'analyse syntaxique. Ceci permet d'identifier les entites nommees en unite ou en groupe nominal et egalement de leur attribuer un type. Ces entites nommees sont ensuite utilisees dans l'extraction. Les regles d'extraction permettent de valider ou de changer les types des entites nommees. L'extraction des connaissances est composee des deux etapes : extraire et annoter automatiquement des contenus a partir des textes analyses ; verifier les contenus extraits et resoudre la coherence a travers une ontologie.
What problem does this paper attempt to address?