英语词语之间的语义相似度研究课题作为自然语言处理和计算机人工智能的基础性研究[1?3],如选取、搜索、分类以及歧义消除等,需要依赖于包含现实世界概念的知识体系[4]。英语词语的相似度是对英语词语之间语义相似紧密程度的度量,在机器翻译、数据信息检索等方面具有重要的实用价值[5]。在不同的实际应用场景中,英语词语相似度具有不同的用途[6]。另外,在构造统计英语词语语言模型的过程中,由于数据分布稀疏导致未登录英语词语的统计信息无法计算的问题[7],需要进行高相似度英语词语自主选取系统设计。在国内,随着计算机人工智能的不断发展,更准确地进行高相似度英语词语自主选取系统设计引起了很多国内外专家与学者的重视。
文献[8]提出基于朴素贝叶斯的高相似度英语词语自主选取系统设计,首先介绍知网中的英语词语相似度基本概念和体系结构,利用知网的义原层次体系结构计算得到英语词语的义原相似度,计算出英语词语概念的相似度;然后通过支持向量机分类器完成自主选取系统设计。该方法较为简单,但是存在英语词语相似度计算不清的问题,导致在自主选取過程中准确率不高。文献[9]提出基于Corpus库的高相似度英语词语自主选取系统设计,首先构建英语词语语义关联库,利用该库使英语词语空间与关系空间结构化,保存英语词语与其上下文之间的总体信息,通过阅读大量的英语词语语料数据来训练相似度英语词语的相关数据,并对训练过程中涌现的大量英语词语关系进行剪裁,利用朴素贝叶斯分类器完成对高相似度英语词语的自主选取。该方法存在对高相似度英语词语的自主选取时间过长,且英语词语的相似度计算准确率较低的问题。
针对上述问题,本文提出一种基于数据挖掘的高相似度英语词语自主选取系统设计方法,所提系统设计方法可以精确地选取出高相似度英语词语,且选取时间较短,实用性广泛。
本文来源:https://www.010zaixian.com/zuowen/ciyu/514920.htm