[1]赵雪,崔荣一*.基于N层向量空间模型的文本相似度计算方法[J].延边大学学报(自然科学版),2016,42(03):231-234.
ZHAO Xue,CUI Rongyi*.The similarity algorithm of texts based on N-VSM model[J].Journal of Yanbian University,2016,42(03):231-234.
点击复制
ZHAO Xue,CUI Rongyi*.The similarity algorithm of texts based on N-VSM model[J].Journal of Yanbian University,2016,42(03):231-234.
基于N层向量空间模型的文本相似度计算方法
《延边大学学报(自然科学版)》[ISSN:1004-4353/CN:22-1191/N]
卷:
第42卷
期数:
2016年03期
页码:
231-234
栏目:
应用科学研究
出版日期:
2016-07-20
- Title:
- The similarity algorithm of texts based on N-VSM model
- Keywords:
- vector space model; word frequency; word order; similarity algorithm
- 分类号:
- TP391
- 文献标志码:
- A
- 摘要:
- 针对向量空间模型忽略词语出现位置和词序的缺点,结合科技文献结构明显分层的特点,本文提出了基于N层向量空间模型的文本相似度计算方法.该算法首先用N层向量空间模型表示查询短语和科技文献,其次在词频角度上和词序角度上分别计算两者间的相似度,最后得出整体的文本相似度.将本文算法应用于中、朝、英对照科技文献多语种检索模块测试其有效性,测试结果表明,本文设计的文本相似度计算方法算法性能较好,与传统的向量空间模型余弦相似度算法相比,查准率提高了2.7%,MRR提高了2.02%.
- Abstract:
- Aiming at the disadvantages of vector space model that ignores the occurrence and order of the words, combing with science and technical literature clearly layered structure features, this paper puts forward the similarity algorithm based on N-layer vector space model. First we establish the query phrase and science and technical literature N-layer vector space model. Then we figure out the similarity between texts in word frequency. Next we figure out the similarity between texts in word order. At last we get the final similarity. The algorithm is applied in Chinese-Korean-English science and technical literature multilingual retrieval module to test the validity. Testing results show that compared with the traditional vector space model cosine similarity algorithm, the new algorithm improves the precision of 2.7%, MRR increases by 2.02%.
参考文献/References:
[1] 宋余庆,陆琳.基于层次模型的搜索引擎评价研究[J].图书情报研究,2014,1(7):32-39.
[2] 谭静.基于向量空间模型的文本相似度算法研究[D].成都:西南石油大学,2015:11-14.
[3] 操卫平.基于结构化向量空间模型的中文信息检索系统研究与设计[D].北京:北京工业大学,2008:13-15.
[4] 高珊.信息检索中的查询扩展及相关技术研究[D].武汉:华中师范大学,2008:20-21.
[5] 施聪莺,徐朝军,杨晓江.TFIDF算法研究综述[J].计算机应用,2009(29):167-170.
[6] 梁亮.形式概念分析上概念间的包含度理论研究[D].山西:山西大学,2011:7-9.
[7] 董刊生,方金云.基于向量距离的词序相似度算法[J].中文信息学报,2009,23(3):45-48.
备注/Memo
收稿日期: 2016-04-23*通信作者: 崔荣一(1962—),博士,教授,研究方向为模式识别、智能计算.
更新日期/Last Update:
2016-10-20