Cross-Language Information Retrieval Based on Improved Latent Semantic Indexing
宁健,林鸿飞
DOI: https://doi.org/10.3969/j.issn.1003-0077.2010.03.016
2010-01-01
Abstract:The Drug loaded nanoparticle is a new technology produced by nanotechnology combinedwith modern medicine.It’s a new carrier of drug transport.It slow releases drug,prolongs the time ofdrug action,penetrates the biological barrier,transport drug to target organ,and built up a new route ofadministration,ect.In one word,in the drug control release,it show superiority to others transportationsystem of drug.In recent years,the application basic research of drug loaded nanoparticle develops rap-idly,and makes great progress in different kinds of chinical fields.This article reviewed the applicationresearch of drug loaded nanoparticle,and predict its prospects of development application in differentkinds of clinical fields.图1潜在语义分析双语训练文档语料具有以下统计特征:(1)双语摘要同时包含中英文的论文篇名和关键词,我们认为这些特征能够明显体现文档特征,所以在向量表示时赋予其较高权重。(2)生物医学领域期刊论文摘要中,存在大量的英文缩写和数学符号。例如:在9具新鲜成人颈椎标本(C3-T1)上、对双侧75%小关节切除后失稳的C4-5节段,安放了Halifax椎板夹和棘突钢丝固定,通过脊柱三维运动稳定性评价方法,评价它们重建颈椎稳定性的即刻效果。On nine fresh adult cervical spinal specimens(C3-T1),the three-dimensional motions of C4-5segment were analyzed to evaluate the immediatestability following bilateral mastectomy,HalifaxClamp and wire fixation.对训练语料进行统计发现,有59.4%的对齐句对中包含以上类似信息,这类信息称为锚信息[16]。由于相对应的中英文摘要中的锚信息往往基本相同,这些信息可以作为检索的特征。比如,无论是英语文本还是汉语文本,互译的文本中表示比例关系都使用“%”,中文句子的结束标志是“。”,对应的英文句子的结束标志为“.”。如图2所示。当二氧化钛的质量分数为60%,水热处理涂层的结合强度可达17MPa。The bonding strength of the hydrothermallytreated coating becomes 17 MPa when themass fraction of titania is 60%in the originalpowder.图2锚信息英语摘要和汉语摘要的锚信息特征都很相似,甚至相同,我们可以在双语检索中应用到锚信息特征,由于这类锚信息会在潜在语义空间中的距离很近,所以包含这些锚信息的中英文摘要文档也会相应的靠近。4.2实验及分析手工从1996年到2006年中图分类号为R318的生物医学文献中筛选出1 000篇仅含有汉语摘要的期刊论文和1 000篇仅含有英文摘要的期刊论文作为测试语料。将测试语料采用fold-in方法分别加入降维后的双语空间,使每篇单语摘要都映射成为空间中的一点。语料规模为5 000篇文档,其中包括3 000篇对齐的英汉双语摘要,以及各1 000篇英汉单语摘要。我们选择了30个主题进行测试,采用人工相关性判断的方法制作相应的答案。我们设计了三个实验(T1,T2,T3)和一个对比试验(baseline),baseline采用的是经典的基于潜在语义分析方法进行跨语言检索。T1使用MALSI方法计算三个模型(k=100,k=150,k=200)的信任度,并且进行平均来计算查询和文本相似度,T2使用了T1的方法,同样建立三个模型(k=100,k=150,k=200),但是采用了NMF矩阵分解的方法。T3采用公式(7)的方法综合分析SVD分解模型和NMF分解模型的检索结果,得到每个查询和文档的相似度。表1和表2给出的是,在生物医学数据集上各种方法的检索性能。其中p@10为30个查询主题返回的前十篇文档中相关文档所占比率的平均值,r@10为30个查询主题返回的前十篇文档中相关文档所占总相关文档数比率的平均值。我们计算召回率为0.2,0.4,0.6,0.8和1时的查准率,平均精度定义为所有查询主题在这5个点上的查准率的平均值。表1中文检索英文各方法的检索性能检索方法平均精度P@10 r@10Baseline 34.8%49.3%35.7%T1 44.6%54.9%43.7%T2 50.3%64.3%34.9%T3 59.6%70.3%44.9%表2英文检索中文各方法的检索性能检索方法平均精度P@10 r@10Baseline 36.1%55.6%29.1%T1 37.8%59.4%32.3%T2 45%53.6%32.7%T3 52.1%63.8%50.9%实验Baseline采用经典的基于潜在语义分析的检索模型,这种方法在同源的英法Hansards语料集上获得了很好的检索效果,但是由于英语和汉语不是同源语言,作者英语写作水平参差不齐,写作习惯不同,译文质量有好有坏,并且单一的k值模型不能达到对所有查询都是最优的目的,如果k值过大,则计算量过大,并且会产生过拟合现象;如果k值过小,则会丢失很多有用信息。因此,Baseline的方法的准确率和召回率都很低。MALSI模型平均化潜在语义方法选取不同的k值,建立多个模型,MALSI允许每个模型都对相关文档的相似度产生影响,给每个模型都赋予一个信任度进行计算总的文档相似度,从而补偿了单一模型的风险,因此检索效果得到了提高。基于SVD和NMF分解的多模型平均化潜在语义分析方法T1和T2都取得了较好的检索效果。T3运用模型平均化的思想,通过每个模型的信任度将两种矩阵分解模型结合起来,结合考虑两种矩阵分解方法的结果,由于NMF分解后的矩阵不存在负值,语义结构的向量表示物理意义明确,并且没有受到损失,所以将两种矩阵分解模型结合起来后,较好地弥补了SVD矩阵分解模型存在的语义结构的向量表示受负值影响的损失。从实验结果可以看出,基于模型平均化的潜在语义方法明显改善了检索系统的性能,2组基于SVD和NMF矩阵分解的模型平均化方法在平均精度上优于向量空间模型。对于2种不同的矩阵分解技术,基于SVD分解的检索模型准确率—召回率曲线在召回率较小的情况下准确率比较高,但是由于矩阵分解后存在负值,影响了语义结构的向量表示,在召回率大于0.6以后准确率下降比较剧烈;相对来说基于NMF矩阵分解后的矩阵全为正值,语义结构的向量表示没有受到损失,所以召回率—准确率曲线更平滑,在召回率很高的情况下仍然保持了一定的准确率。T3结合了两种不同模型的结果,实验结果也得到了相应的提高,表现为召回率较小的情况下的准确率比较高,并且在召回率很高的情况下,曲线依然很平滑,准确率基本维持在NMF分解的水平上。从实验结果上看,T3的方法在准确率和召回率上面吸收了两种矩阵分解方法的优点。不同方法的检索结果的对比关系可以从图3中更直观地看到(横坐标为召回率,纵坐标为准确率):图3不同方法的准确率召回率曲线由于没有使用标准的相关性判断语料,我们又采用了文献[8]中的方法来对结果进行评价。即用测试集中的1 000篇中文文档作为长查询进行检索,统计检索到得相应的英文文档数目;同样用测试集中的1 000篇英文文档作为长查询进行检索,统计检索到得相应的中文文档数目,如果返回文档的相似度阈值大于0.5,我们就认为检索到了对应的文档。此方法中我们加入了语料中普遍存在的锚信息特征,由于锚信息的引入使得检索结果如下普遍有所提高,表3、表4给出SVD模型平均化潜在语义检索结果及加入锚信息检索的结果。表3模型平均化潜在语义检索结果查询文档检索到相关文档数准确率中文英文783 78.3%英文中文706 70.6%表4加入锚信息的模型平均化潜在语义检索结果查询文档检索到相关文档数准确率中文英文904 90.4%英文中文895 89.5%锚信息特征的引入,使得检索的准确率得到很大的提高,这是由于锚信息能够针对生物医学领域的领域特点,充分利用了生物医学领域里的特殊字符以及双语摘要段落结构等特征。由于潜在语义分析方法的优点就是能够将同义词映射到空间中距离相近的位置,从而能够检索出同义词,所以同义的锚信息也将被映射到空间中距离相临的位置,同时将包含此锚信息的中文摘要和英文摘要映射到潜在语义空间后也将位置相邻,这样检索的准确率将会得到提高。对实验结果进行分析,错误相对集中,英文单语文档作为查询检索中文时,58.3%的未检索到文档为汉字少于50字的汉语的文档;双语摘要中没有锚信息时,错误也容易发生。这是由于模型的信任度计算公式各个部分的经验系数是静态的,无法根据每个双语摘要的统计特征动态调整单语摘要中各部分的比重,所以在没有锚信息特征的情况下,关键词特征较少的单语文档不容易获得较高的相似度。5总结通过对生物医学双语摘要语料的分析,本文运用了改进的潜在语义方法,通过选取不同的k值,分别构建多个SVD和NMF矩阵分解双语检索模型,通过计算每个模型的信任度,将不同矩阵分解模型的结果相结合,使得每个模型都对相似度的计算做出了贡献,实验表明这种方法对于基于传统的潜在语义索引的跨语言检索的准确率有一定的提高。将该方法用于段落不长,而且具有英文缩写、数学符号以及结构化信息的生物医学文献双语摘要语料的交叉语言检索中,具有较好的检索效果。在本文的实验中,由于条件的限制,文档集的规模不够大,在下一步的研究中扩大实验的规模,并将对基于概率潜在语义分析的模型平均化方法进行研究。基于改进潜在语义分析的跨语言检索@宁健$大连理工大学计算机科学与技术学院!辽宁大连116024@林鸿飞$大连理工大学计算机科学与技术学院!辽宁大连116024该文采用基于SVD和NMF矩阵分解相结合的改进潜在语义分析的方法为生物医学文献双语摘要进行建模,该模型将英汉双语摘要映射到同一语义空间,不需要外部词典和知识库,建立不同语言之间的对应关系,便于在双语空间中进行检索。该文充分利用医学文献双语摘要语料中的锚信息,通过不同的k值构建多个检索模型,计算每个模型的信任度,使得多个模型都对查询和文本的相似度做出贡献。在语义空间上进行项与项、文本与文本、项与文本之间的相似度计算,实现了双语摘要的跨语言检索,取得了较好的实验效果。计算机应用;;中文信息处理;;改进潜在语义分析;;语义空间;;跨语言检索;;SVD;;NMF[1]Kazuaki Kishida.Technical Issues of Cross-LanguageInformation Retrieval:a Review[J].Information Pro-cessing and Management,2005,41(3):433-455.[2]Gina-Anne Levowa,Douglas W.Oardb,Philip Resni-kc.Dictionary-based techniques for cross-language in-formation retrieval[J].Information Processing andManagement,2005,41(3):523-547.[3]Dong Zhou,Mark Truran.A Graph-Based Techniquefor Resolving Ambiguity in Query Translation Candi-dates.Symposium on Applied Computing[C]//Pro-ceedings of the 2008 ACM symposium on Applied com-puting,Fortaleza,Ceara,Brazil:ACM New York,USA,2008:1566-1573.[4]Dong Zhou,Mark Truran.A Hybrid Technique forEnglish-Chinese Cross Language Information Retrieval[J].ACM Transactions on Asian Language Informa-tion Processing(TALIP),2008,7(2):1-35.[5]Guihong Cao,Jianfeng Gao.Extending query transla-tion to cross-language query expansion with markovchain models[C]//Proceedings of the sixteenth ACMconference on Conference on information and knowl-edge management,2007:351-360.[6]J.Y.Nie,M.Simard,P.Cross-Language Informa-tion Retrieval based on Parallel Texts and AutomaticMining of Parallel Texts in the Web[C]//Proceed-ings of SIGIR’99,Berkeley,1999:74-81.[7]GAO JF,Nie JY.Trec-9 CLIR Experiments atMSRCN[C]//Proceeding of the Ninth Text RetrievalConference.USA,2000:343-353.[8]Susan T.Dumais,Furnas G W.Indexing by LatentSemantic Analysis[J].Journal of the American Societyfor Information Science,1990,41(6):391-407.[9]Michael L.Littman,Susan T.Dumais,Thomas K.Landauer.Automatic cross-language retrieval using la-tent semantic indexing[C]//Proc.of SIGIR’96,1996:16-23.[10]Berry,M.W.,Young,P.G.Using Latent SemanticIndexing for Multilingual Information Retrieval[J].Computers and Humanities,1995,29(6):413-429[11]Michael W.Berry,Murray Browne,Amy N.Lan-gville.Algorithms and applications for approximatenonnegative matrix factorization[J].ComputationalStatistics&Data Analysis,2007,52(1):155-173.[12]H.Bast and D.Majumdar.Why spectral retrievalworks[C]//Proceedings of SIGIR’05,2005:11-18.[13]Miles Efron.Model-averaged latent semantic indexing[C]//Proceedings of SIGIR’07,2007:755-756.[14]K.P.Burnham and D.R.Anderson.Model Selec-tion and Multimodel Inference[M].Springer,NewYork,2002.[15]C.H.Q.Ding.A similarity-based probability modelfor latent semantic indexing[C]//Proceedings of SI-GIR’99,1999:58-65.[16]陈相,林鸿飞.基于锚信息的生物医学文献双语摘要句子对齐[J].中文信息学报,2009,23(1):58-62.