on Chinese Orientation Analysis
Zhang Meng,Peng Yifan,Fan Yang,Li Dan,Lin Xiaojun,Wu Xihong
2008-01-01
Abstract:张猛,彭一凡,樊扬,李丹,林小俊,吴玺宏 北京大学言语听觉研究中心,北京,100871 E-mail: {zhangm, pengyf, fanyang, lidan, linxj, wxh}@cis.pku.edu.cn 摘 要:文本倾向性分析是自然语言处理中的一个热点问题。本文介绍了一套中文文本倾向性分析的方法, 它包括词法分析和倾向性判别两个步骤。在词法分析中,基于条件随机场模型,对输入的文本进行分词和 命名实体识别的一体化处理,从而有效地提高了分析性能。在倾向性判别中,从词汇、句子和篇章三个不 同层次进行分析。其中在词汇层次上采用最大熵模型,根据上下文信息进行情感词识别和极性判别。在句 子层次上根据构建的属性列表抽取评价对象,并通过修饰词判断其倾向性。在篇章层次上,以词汇判别结 果为基础,采用支持向量机模型,融合多种信息对文本的主客观和极性进行判别。最后,本文在搜索引擎 中加入文本倾向性分析功能,在检索到相关文档的同时,得到其褒贬倾向。 关键词:词法分析一体化,情感词,倾向性分析