首页 > 学院 > 开发设计 > 正文

第二章 XML信息检索基础

2019-11-08 02:18:07
字体:
来源:转载
供稿:网友

2.1 信息检索系统

数据检索系统可分为四个部分: 1、数据预处理: 从多种格式的数据中提取正文和其他所需的信息。 2、索引生成: 索引是索引项的集合,一个索引项是由一个节点的关键码和该节点的存储位置组成的关联。 目前主流的方法是以词为单位构造倒排索引表。 3、查询处理 用户输入的查询条件可以有多种形式,很多系统采用查询扩展克服这一问题,很多人还采用相关反馈、关联矩阵等方法对查询条件进行深入挖掘。 4、检索 对结果进行重排序,一般的信息检索系统采用基于内容的计算技术来分析结果和查询的相关性。

2.2 信息检索模型

信息检索模型是指如何对查询和文档进行表示,然后对它们进行相似度计算的框架和方法。

2.2.1 布尔模型

一个文档被表示为关键词的集合,查询式(Queries)被表示为关键词的布尔组合,用“与或非”连接起来,并用括号指示优先次序。

2.2.2 向量空间模型

1、查询和文档都被看成是由若干特征词组成的向量,每一个文档都被看成向量空间中的一个点,也就是有若干特征词描述的向量。文档与查询的相似性问题被描述成向量空间中的两个向量之间的相似度。按相似度大小将文档排序后提交给用户。相似度值的大小反映了文档与用户查询要求的相关程度。 2、术语: 1)文档d(Document):泛指各种及其可读的记录。 2)特征项t(Term):也称为索引项,是指出现在文档d中而且能够代表该文档内容的基本语言单位。 3)特征项权重Wik(Term Weight):对应t在文献中的重要程度, Wik的计算通常采用特征项频率tfik和逆文档频率idfk计算:Wik=tfik∗idfk=tfik∗[log2(N/nk)+1] 4)向量空间模型(VSM):t互不相同,可以将文档看做是m维欧氏空间的向量。 5)查询(Query):是用户信息需求的描述形式。 6)相似度(Similarity):衡量一篇文档向量d与用户查询式向量q的相近程度,即判断某篇文档是否是用户所需要的。

2.2.3 概率模型

1、检索模型是基于一个文件与提问式的相关度是高于还是低于非相关度的概率来进行文档检索的检索方法。 2、概率模型的优点是,文档可以按照他们相关概率递减的顺序来计算秩(rank),其缺点为:1)开始时需要猜想吧文档分为相关和不想关的两个集合,一般来说很难;2)世纪这种模型没有考虑索引术语在文档中的频率(因为所有的权重都是二元的),而索引术语都是相互独立的;3)概率模型是否要比向量模型好还存在着争论,但现在向量模型的使用比较广泛。

2.3 信息检索评价

1、信息评价是对信息检索系统性能进行评估的活动。 2、信息检索系统的目标是在较少消耗情况下尽快、全面返回准确的结果。 3、早期常用的测评指标包括准确率(PRecision)、召回率(Recall)、F1值等。其定义如下: 召回率=系统检索到的相关文件数相关文件总数准确率=系统检索到的相关文件数系统返回的文件总数F=1a1P+(1−a)1R=PRaR+(1−a)P

2.4 xml信息检索

XML信息检索是指对多个XML文档进行查询以活得理想结果。目前XML信息检索的研究主要包括XML索引结构、XML检索与排序方法,以及XML检索评价方法等。基于XML的信息检索系统有两种信息检索单位:一种是以文档为检索单位,另一种是以文档中被标注元素为检索单位。

2.4.1 XML索引结构

一般认为XML文档的结构信息包含两方面:一是XML树中的祖先-后代关系(含父-子关系);二是兄弟之间的关系。

2.4.1.1 支持文档检索的索引结构

该方法只适合与以文档为检索单位的XML搜索引擎。

2.4.1.2

1、基于路径记录和结构索引思想,本体索引包括所有元素名称,用来提高检索效率。 2、基于树节点编码思想的索引结构通过对XML文档树节点采用不同编码方案来快速判断两个节点是够存在前后代关系。

2.4.1.3 节点编码方案、

1、祖先后代编码(先序,后序),不足之处是不能判定是父子关系,当文档结构变化时,节点的标识要重新计算,所需花销较大。 2、间隔编码,(pre,size),数据库更新特别是插入时,间隔编码只需要较少的重新计算量,节点间隔的大小仅在插入节点的祖先节点改变。 3、虚拟节点编码,虚节点码采用广度优先的编码方式,虚节点编码模式支持一定程度的插入增量更新。 4、兄弟编码,具有同一个路径标识的父节点的子节点由兄弟数来区分。更灵活,支持增量更新。

2.4.2 XML检索方法

2.4.2.1 基于改进的向量空间检索方法

1、利用XML文档的结构和语义信息,考虑检索单元的结构语义,从而提高查询效率 2、将XML及路径语言与传统的向量空间模型想结合,基于简单XPath路径的向量检索算法来时间线对XML文档的检索。 3、此外,在改进的向量空间模型中,特征词的权重计算方法大都是对tf*idf的修改,即tf和idf的计算均以XML元素为单位计算的。

2.4.2.2 基于域加权词频法的概率检索

对于XML文档来说,不同的结构往往蕴涵了不同的语义信息,即使是XML文档级的检索,也与普通文本信息检索有所不同。XML文档通常包含一些子元素,考虑文档的内部结构对提高检索性能是有帮助的。

2.4.2.3 基于XML查询语言的方法

这些查询语言实现的是精确查询,不支持检索结果排序、传统的关键词查询以及异构数据源的查询,并不适合于在Web这样的开放式环境下或实在大型企业的intranets环境下检索信息。为此,一些研究致力于对XML查询语言进行扩展,使其适用于上述环境下的XML检索。

2.4.3 返回结果的确定

XML检索系统是以XML元素为粒度来返回检索结果的,只返回用户感兴趣且符合检索条件的元素集,XML检索不但可以使得检索结果更为准确,也使得传输的数据量大大减小。节点的权重与节点文本大小成一定的反比关系。

2.4.4 XML信息检索研究存在的问题

1)不支持检索结果排序、传统的关键词查询以及异构数据源的查询。 2)没有从根本上考虑XML文档结构信息 3)在输入查询信息时需要按照查询语言的语法输入XML文档结构信息和关键词 4)不同的标签可能表示相似的概念


发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表