查全率和漏检率和误检率是一对互逆的检索指标吗?

  查全率(Recall Ratio)是指检出的相关文献量与检索系统中相关文献总量的比率,是衡量检出相关文献能力的尺度。简介  查全率是衡量某一检索系统从文献集合中检出相关文献成功度的一项指标,即检出的相关文献与全部相关文献的百分比。它的数值等于 w/x,式中 w为用户鉴别检出的 m篇文献时,认为实际对口径的文献篇数,x 为特定检索系统中所包括的全部 n篇文献中实际与某一课题相关的文献篇数。  这一指标最初是由J.W.佩里与A.肯特等人于1956年提出的。F.W.兰开斯特于1979年在《情报检索系统──特性、试验与评价》一书(第二版)中将上述n篇文献表达为a+b+c+d之和,并采用下列2×2表。  上述m篇文献应为a+b,w篇文献应为a,x 篇文献应为a+c。查全率可表述为a/(a+c),式中a值经过一次检索即可判定,c值一般可用下述4种方法确定:  ①若n 值不大,逐篇鉴别各篇文献,即可确定c值。②若n值很大,可对未检出文献随机抽样,如抽样为1/100,其中有r篇文献是相关的,则估计c=100r。③由有经验的用户去鉴别检出的文献,若他认为这次检出了2/3 的全部相关文献,则c=1-2/3=1/3。④通过不同途径去检索同一课题的文献,把各次检出的文献加在一起,剔除重复,形成一份较完整的相关文献清单,以此对比每次检出的相关文献,即可知道相应的c值。  有了a值与c 值,代入公式a/ (a+c),即可求出查全率。一般来说,检索工具的标引深度越大,查全率也就越高。标引过程的网罗性越好,查全率也就越高。C.W.克莱弗登1963年通过试验揭示查全率与查准率一般呈互逆相关关系,即提高查全率往往要降低查准率,反之亦然。年中国已有人用概率论与证明了这一经验定律,并对查全率、相关边线与的意义作出了进一步的科学解释。计算公式  查全率是检索出的相关信息率与系统中相关信息量的比率,计算公式如下:局限性  查全率的局限性主要表现在:它是检索出的相关信息量与存储在检索系统中的全部相关信息量之比,但系统中相关信息量究竟有多少一般是不确知的,只能估计;另外,查全率或多或少具有“假设”的局限性,这种“假设”是指检索出的相关信息对用户具有同等价值,但实际并非如此,对于用户来说,信息的相关程度在某种意义上比它的数量重要得多。  为了保证查全率,在选取检索词和制定策略时应从多角度考虑,将与检索相关的同义词、反义词、上下位词和易错形式等4种类型的用词进行相关检索。另外,同义词包括了学名与俗名、全称与简称、新称与旧称、外文形式及其简称、不同的译名等,还有化学物质的名称和分子式如“”和“SO2”、不同地区、国家的俗称如“民乐”(中国大陆)和“国乐”(中国)及“华乐”()、古代名人字号等。反义词可以从相反的角度反映同一个问题,用来作相关检索也可提高查全率。上下位词有助于分析信息检索中学科知识的网络分布,准确把握主题用词,能有效控制检索的深度和广度。而检索词的易错形式则是主要针对出版、输入时的误差采用的检索办法,如“高粱”和“高梁”、“豆豉”和“豆鼓”、“针灸”和“针炙”等,如果在检索时将有关的全称、简称、旧称、英语全称、英语缩写以及简称作为检索用词,则能有效提高检索的查全率。影响因素  影响查全率的因素从文献存储来看,主要有:文献库收录文献不全;索引词汇缺乏控制和专指性;词表结构不完整;词间关系模糊或不正确;标引不详;标引前后不一致;标引人员遗漏了原文的重要概念或用词不当等。  此外,从情报检索来看,主要有:检索策略过于简单;选词和进行逻辑组配不当;检索途径和方法太少;检索人员业务不熟练和缺乏耐心;检索系统不具备截词功能和反馈功能,检索时不能全面地描述检索要求等。提高查全率的具体方法  提高查全率首先应正确选词。选词就是将主题概念转变成检索语言,选词的广度和专指度对主题概念的表达起着关键作用。提高查全率的指导思想是:选词应广泛,即主题词的选取范围要广一些,泛指性要强一些;逻辑算符应选择具有扩检意义的“逻辑或”。上、下位扩检法  为了提高文献检索的查全率,除选择恰当的主题词外,还应该选择内容范围更广的上位词及更窄的下位词参与检索,以扩大检索范围。例如,检索“液体火箭发动机”可用这样的检索式:液体火箭发动机OR氢氧发动机OR肼发动机OR火箭发动机。同义词、近义词扩检法  许多全文数据库都支持关键词检索。利用关键词检索,用户不必掌握复杂的叙词知识,这使检索变得简单而直接。由于关键词未经规范处理,它们之间不显示词的等级关系和相关关系,这都增加了查全文献的难度。因此,为了全面地收集文献,在进行某一专题检索时不仅要确定较规范的主题词,还要考虑与该主题词相关的同义词或近义词,即学名与俗称之间、同一产品的正式命名与俗名之间的相关关系等。反映同一概念的检索词越多,则越能保证查全率,如“乙醇”俗名“酒精”,“维生素C”俗称“维他命C”或“抗坏血酸”,“番茄”俗称“西红柿”,“马铃薯”俗称“土豆”,“敌克松”又称“地可松”等。这类意思一样但表达方式不同的词,在检索中应加以重视。如果不考虑这种情况,在检索中就会漏掉一些文献,从而影响查全率。增加“逻辑或”组配  文献检索中除正确选择主题词外,恰当地表达主题词之间的逻辑关系也是提高查全率的重要方法。在逻辑组配过程中,必须正确地选用逻辑算符来表达检索项之间的逻辑关系,以真实、确切地反映检索要求。如果逻辑算符选得不对或不恰当,将会产生漏检或误检,直接影响检索质量。前面已提到,用“逻辑或”组配可以扩检,而“逻辑与”组配可以缩检,因此,提高检索的查全率必须增加OR组配,减少AND组配。方法之一是选全同义词,并以OR方式与原词连接后加入检索式。例如,检索“乙醇的生产”方面的文献,可制订检索式:乙醇OR酒精AND生产。搜索引擎的查全率  搜索引擎的查全率是指:查询关键词时,搜索引擎返回的相关网页数与全部相关网页数的比率。  假如包含某关键词的网页实际上有N个,而搜索引擎真正检索的只有M个,那么这个关键词的查全率就等于M÷N×100%。  查全率是衡量搜索引擎检索是否全面的度量指标。查全率越高,则表示搜索引擎的全面检索能力越强。
词条分类[]
按学科分类:
按行业分类:
按地域分类:
开放式分类:
注释信息[]
扩展阅读[]
相关词条[]
申明:1.中文百科在线的词条资料来自网友(一些人是某学科领域的专家)贡献,供您查阅参考。一些和您切身相关的具体问题(特别是健康、经济、法律相关问题),出于审慎起见,建议咨询专业人士以获得更有针对性的答案。2.中文百科的词条(含所附图片)系由网友上传,如果涉嫌侵权,请与客服联系,我们将及时给予删除。3.如需转载本页面内容,请注明来源于www.zwbk.org
词条保护申请
* 如果用户不希望该词条被修改,可以申请词条保护
* 管理员审核通过后,该词条会被设为不能修改
注意:只有该词条的创建者才能申请词条保护
本条目由以下用户参与贡献
评论评论内容为网友展开的讨论,与本站观点立场无关[]信息检索题库(含答案)_百度文库
两大类热门资源免费畅读
续费一年阅读会员,立省24元!
信息检索题库(含答案)
阅读已结束,下载文档到电脑
想免费下载更多文档?
定制HR最喜欢的简历
下载文档到电脑,方便使用
还剩14页未读,继续阅读
定制HR最喜欢的简历
你可能喜欢查全率和漏检率是一对互逆的检索指标吗_百度知道
色情、暴力
我们会通过消息、邮箱等方式尽快将举报结果通知您。
查全率和漏检率是一对互逆的检索指标吗
我有更好的答案
根据查准率和查全率可绘制系统的PR曲线,可根据曲线判断系统的优劣。查全率和查准率之间具有互逆的关系,一个IR 系统可以在它们之间进行折中。在极端情况下,一个将文档集合中所有文档返回为结果集合的系统有100 %的查全率,但是查准率却很低。
采纳率:79%
来自团队:
为您推荐:
其他类似问题
换一换
回答问题,赢新手礼包}

我要回帖

更多关于 漏检率计算公式 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信