摘要:针对网络纸的检查问题,基于从信息论两者的类似度来计算的思想,提出了基于中国学术义原信息量和义原中文字类似度的计算方法及其作用关系。字义原信息量、字概念之间的主类义原的类似度是根据信息量义原计算的,单词的类似度是根据义元和角色关系类似度和单词中的义原节点类似度组合计算的。
概念中,知道网络的在线方法,将人工判断的类似度值与网络纸的检查原理进行比较。实验结果表明,这种方法更接近人类的判断。前面的报道“公开:了解重要的规则和检查原理”大致介绍了网络纸检查的规则原则。
我们来详细看看网络纸的检查原理吧。关键词:类似度、网络纸的检查、纸的检查0前言学术论文的检查广泛应用于信息检索、文本分类、信息提取、机器翻译等领域。计算单词相似度的主要方法是本体论或分类方法的两种,例如基于网络(知识网)信息,基于WordNet的字节点的距离计算英语单词的语义相似度。
的另一种是基于语料库统计的方法[5-8]。该类型的方法假设具有相似意义的单词应该具有相似的上下文,并且使用上下文中的单词概率的分布来计算单词类似度。学术(HowNet)是一个广泛使用的中文意思资源平台,用于国内外的自然语言处理。
自1
使用变量系数来计算各种类型的义原权重,并且认为不同词语对相似性的贡献不同。导入类似度全面计算单词的类似度[10-11];林丽等将部分义原分类为弱义原的义原,在参加类似度计算时较低的加权值[12];张敏考虑到品质的作用,计算抽象义原的单词类似度[13],减少了范弘屹等的贡献。
考虑到义原的距离、深度、密度等信息[14],张亮等构成具有学术的语义树,将单词类似性分析转换为语义树的类似性分析[15]。这些方法通常基于语义分解的思想将单词分解成更小的单位(义原)来参加类似度计算,然后基于权重比综合计算单词的整体类似度。
的计算结果取决于表达式的设计和参数的选择,并且这些参数不完全响应。单词的意思相似性是
刘青磊等。通过字组义原[16]的公共信息和差异信息全面计算字的类似度,尤宾们利用学术作为统计语料库计算单词中包含的义原信息量,估计两个单词的语义类似度[17],基于语料库统计的方法是在统计中使用的语料库依赖,计算过程复杂,语料库建设困难。
本文提出了一种基于知识网义原特征的中文类似度计算方法。使用学术分类系统(Taxonomy),将义原及其作用关系作为单词类似度计算的基本单位,保留说明语概念的各义原。
基于计算信息论两者类似性的思想,从主类义原的类似性、义原及其角色关系的类似性、以及义原节点的类似性等方面综合计算词语的类似度。1义原信息量1.1义原信息量在文献[5]中提出,PhilipResinik根据信息量计算单词的意思类似度。在
字Net中,相对于概念c,信息的内容在定语库中表示为c的概率p(c)。根据负对数函数[5]
Resinik的想法,对于学术中的义原A,信息量在(1)中表示义原A出现在代码样本空间的概率。语料库样本空间中出现义元的概率很难计算。
知道网作为描述各种概念和关系的知识系统,分类系统本身可以被认为是各自义原的样本空间。这只取决于网络的分类系统本身,不需要其他语料库作为计算源的概率。
样本空间也很合理。根据研究,分支节点义原中包含的子孙的结点越多,信息量越小。叶节点是最小分类,所有叶节点的信息量相同。
被设定为义原树上的义原节点,义原及其子孙义原作为样本空间中义原出现的次数。根据学术的分类系统,义原的信息如下计算。(2)这里是义原所包含的后代义原的数量,是样本空间的所有义原的数量。
的本研究采用实体类中包含的216义原、事件类、属性类、属性值类以及网络中的辅特征作为在义原树上计算义原概率的样本空间。1.2义原相似性DekangLin在文献[6]中给出了共同公式[6],其中两个事件的相似性取决于它们的共同性和不同,并且从信息论的角度计算任意两个事件之间的相似性。(3)分子表示记述事物A和B的共性所需的信息量,分母表示完全记述事物A和B所需的信息量。在义原树中,假设义原是最近的祖先节点义原和义原,义原是包括义原和义原在内的最小分类,这是义原和[6]最具体的一般抽象,这是义原的共性,把信息量作为义原,根据公式(3),类似度计算式给予义原和。实体之间的类似性是「家畜」和「兽」。最近祖先节点的义原是“野兽”。
个子节点的孙子的结合点是5,根据式(2)和式(4),两者的类似度是0.384。这项研究表明,同义原树上两个义原之间的相似性为0,两个义原的相似性为1。2义原及其角色关系2.1概念在学术知识辞典中分别由DEF记述,DEF分为两个部分。
定义1:在主类义原DEF中记述这个词概念的最初最左边的义原被称为主类义原。定义2:在义原及其角色关系的DEF的特征记述部分中,义原与事件角色特征[18]的等级构造的组合被称为义原及其作用关系。定义3:为了进一步说明或说明义原和角色关系的层次结构DEF中单词的概念,采用了“{}”的结构。
本研究基于所包含的关系将结构分类到不同的水平。义原的等级和角色的关系包含着关系。
{}“结构中的级别。定义4:最小不可分的义原和那个角色关系的义原和那个动态角色被称为最小不可分的义原和那个角色关系。例如,“病原体”这个词的概念是DEF={细菌美crobae:domain={mediacalmedical}、modifier={able124}scope={ResultIn|结果=}。“细菌”是主要的类别的义原,其他部分是附加特征的部分。