本站部分文章、图片属于网络上可搜索到的公开信息,均用于学习和交流用途,不能代表睿象云的观点、立场或意见。我们接受网民的监督,如发现任何违法内容或侵犯了您的权益,请第一时间联系小编邮箱jiasou666@gmail.com 处理。
本篇文章给大家谈谈信息检索系统性能测试,以及对应的知识点,希望对各位有所帮助,不要忘了收藏本站喔。
今天给各位分享信息检索系统性能测试的知识,其中也会对进行解释,如果能碰巧解决你现在面临的问题,别忘了关注本站,现在开始吧!
本文目录一览:
如何理解压力、负载、性能测试测试?
性能测试是一个较大的范围,实际上性能测试本身包含
信息检索系统性能测试了性能、强度、压力、负载等多方面的测试内容。
压力测试是对服务器的稳定性以及负载能力等方面的测试,是一种很平常的测试。增大访问系统的用户数量、或者几个用户进行大数据量操作都是压力测试。而负载测试是压力相对较大的测试,主要是测试系统在一种或者集中极限条件下的相应能力,是性能测试的重要部分。100个用户对系统进行连续半个小时的访问可以看作压力测试,那么连续访问8个小时就可以认为负载测试,1000个用户连续访问系统1个小时也可以看作是负载测试。
实际上压力测试和负载测试没有明显的区分。测试人员应该站在关注整体性能的高度上来对系统进行测试。
压力测试(Stress Testing)
压力测试的主要任务就是获取系统正确运行的极限,检查系统在瞬间峰值负荷下正确执行的能力。例如,对服务器做压力测试时就可以增加并发操作的用户数量;或者不停地向服务器发送请求;或一次性向服务器发送特别大的数据等。看看服务器保持正常运行所能达到的最大状态。人们通常使用测试工具来完成压力测试,如模拟上万个用户从终端同时登录,这是压力测试中常常使用的方法。
负载测试(Volume Testing)
用于检查系统在使用大量数据的时候正确工作的能力,即检验系统的能力最高能达到什么程度。例如,对于信息检索系统,让它使用频率达到最大;对于多个终端的分时系统,让它所有的终端都开动。在使整个系统的全部资源达到“满负荷”的情形下,测试系统的承受能力。
『IR 信息检索入门必看』#5 检索系统评价(简明)
前述文章介绍了几种基本信息检索模型,本文将介绍如何评价一个现有的文档检索系统。
一个检索系统的好坏,通常取决于其检索结果与用户查询的相关性,此外还有检索用时、检索范围等等。这里仅针对评价相关性展开讨论。
如何度量相关性?考虑如下三个待实现的要素:
当然,这个「打分标准」可能会随每个人的 信息需求 而变化(the information need is translated into a query),因此这个指标不是确定的(more than binary)。
有了以上三个基本要素,我们就可以构造出一个合理的 测试集 :包含文档集、查询集和有关评价机制。
在制定测试集的时候,往往要先标注好相关的「查询-文档」对。对于小的测试,可以采用人工标注(遍历文档集和查询集)。
但对于较大的测试集则不行(如 TREC 测试集)。此时,可以采用如下方法:
直接用已有的几个检索系统在「总的基准文档集」中检索,取出每个检索的前 n 个结果,取 并集 ,用这个「新的集合」作为「模拟基准文档集」进行标注,这样就可以大大减少范围。
可以通过随机抽样估计真实相关集的大小。
与其阅读所有的文档,不如人工用较宽泛的 Query 先得到一些检索结果,再在这些结果中标记。
有了合理的测试集,只需要用待测试 IR 查询「基准查询集」的内容,对查询结果与「查询-文档」对比较,即可得到有效性度量。
以下介绍两个在度量有效性过程中常用的变量。
在检索结果的 Top n 中,我们定义如下变量:
Precision (精度): Proportion of a retrieved set that is relevant.
Recall (召回率): Proportion of all relevant documents in the collection included in the retrieved set.
与这两个概念相关的还有 Miss (漏识率) 和 Fallout (误报率)。
对应的混淆矩阵(Confusion Matrix)如下表:
这样的计算过程没有考虑到检索结果的顺序,事实上相关文档排在前列的搜索引擎才是我们最需要的。
考虑搜索引擎返回的结果是有序的,取 Top n,则计算 P/R 的方法可以加以修正:
对检索到的文档按照 ranking 排列,顺次计算 P/R,每次计算时考虑前 k 个文档。最后会得到一组 n 个 P/R 值,再对 Top n 中的「相关文档」对应的 Precision 取平均。
上图中,我们对搜索引擎 A 和搜索引擎 B 查询了同一关键词,并取了 Top 10 的查询结果,其中各有 5 篇相关文档,经过计算可发现,A 的检索结果更优。
但是,如果我们要对同一个搜索引擎 A 用不同的关键词来查询呢?
对于不同的 query 可能 Top n 中有数量不同的相关文档,此时的 Recall 就会不一致。如果我们要计算同一 Recall 值处的精度,则需要用到插值方法。
仅用个别的 query 难以在数据巨大的文档集中得到准确的 P/R 值。因此需要考虑更多的 query,并对结果再次平均。
由此,引出两种平均的思想:
做宏平均的过程中,最重要的是将所有 query 视作平等的点。因为在微平均的过程中,我们往往只关注一些大样本、常见样本,而这些样本并不能完全体现搜索引擎的性能。而宏平均关注其他小样本、偏僻样本,这些样本的检索结果体现了搜索引擎内部的类别分布是否均匀。
这种方法也称作 MAP ( Mean Average Precision ),平均之上的平均。
如果只关注平均精度,则会隐藏检索结果的一些有效信息。如果用图表的形式呈现,则更能观察到趋势。
如果直接把 ranked retrieval 的结果画在图中,会得到一条「 锯齿状 」的曲线。因为在同一个召回率下,随着结果数的增长,精度是垂直向下的。
此时,如果我们想要关注曲线中的:
由于各个 query 对应的相关文档总数不同,观测到的召回率点也不同。此时就需要对离散的点用 interpolate (插值),做出连续的曲线,才能确定这些点的精度。接下来讨论如何选取适合的插值方法。
基本原则 :从 平均 来看,随着召回率的增加,精度应该是单调递减的。
基于这个原则,可以得到
即:选取「当前区间」最大的精度点,再以「召回率大于该点的区间」为「新区间」,选取最大的精度点,迭代至 100%。
最后用「 阶梯状 」曲线连接以上各点,可以得到单调递减的曲线。
综合考虑 P/R 值,可以计算出如下 单值评价指标 。
用于强调精度或召回率中的某一个指标,同时兼顾另一个指标。
根据 的取值,增大 代表强调精度的重要性,反之强调召回率。
令 ,可以得到
当 时可得到二者相同重要性的效果,此时的 具有的 物理意义 是所有相关文档 和所有检索到文档 的集合的 对称差 的基数除以两个集合的基数。
将 取补,可以得到
其中 分数则是 P/R 值的调和平均,较为平均的兼顾了二者。这是分类与信息检索中最常用的指标之一。
之所以使用 调和平均 而不是算术平均,是因为在 算术平均 中,任何一方对数值增长的贡献相当,任何一方对数值下降的责任也相当;而 调和平均 在增长的时候会偏袒较小值,也会惩罚精确率和召回率相差巨大的极端情况,很好地兼顾了精确率和召回率。
类似 和 这样的单值评价指标之所以重要,是因为这样能够更好的优化度量。此外,在文档评价中,我们还有如下指标:
定义在弱顺序文档,量化的用户查找 K 个相关文档所需工作量。这项指标计算预期用户在找到第 K 个相关文档之前,按顺序浏览搜索结果列表将要看到的非相关文档的数量。
寻找 Precision 等于 Recall 的点,通常在分类任务中用到。
对于某些 IR 系统(如问答系统或主页发现系统),只关心第一个标准答案返回的 rank,越前越好,这个位置的倒数称为 Reciprocal Rank (RR) ,对问题集合求平均,则得到 MRR。即,把标准答案在被评价系统给出结果中的排序取倒数作为它的准确度,再对所有的问题取平均。
可以从检索结果的(),检索系统的(),以及检索中产生的(),来评价一下检索效果
2
题的概念
信息检索系统性能测试,
并借助于检索语言把这些概念转换成规范化的检索标识,
这一段工作就是档案的
著录标引。
在检索
(查找)
档案文献时,
档案检索人员首先要根据利用者的提问确定其所需档案的实质
内容,
形成概念,
然后同样借助于检索语言,
把表示检索课题的概念转换成规范化的检索标
识,并按实际需求把这些标识之间的逻辑关系表达出来,形成检索表达式。
7
.
档案文献单元方式按照目录构成或计算机文档中数据排列方式的不同,
可区分为文献单
元方式和标识单元方式。
8
.
文献单元方式
信息检索系统性能测试:
在计算机检索中又称为顺检方式、
顺序文档。
它以一份文献为一个条目,
指明该文献的各种特征,即以文献为单元进行检索。
9
.
标识单元方式:
在计算机检索中又称为逆检方式、倒排文档。
它以文献的一个属性标识
为单元,指明含有该属性的全部文献,一般只有标识和文献号(档号)两个项目。
10
.
检索效率是指在检索过程中满足利用者的全面性和准确性程度,它是衡量检索系统性
能的一个最基本的指标。检索效率通常采用查全率和查准率两个指标来衡量和表示。
11
.
查全率是衡量某一检索系统从文献集合中检出相关文献成功度的一项指标,即检出的
相关文献与全部相关文献的百分比。
12
.
查准率是衡量某一检索系统的信号噪声比的一种指标,即检出的相关文献与检出的全
部文献的百分比。
13
.
简答查全率和查准率的关系
查全率和查准率之间存在着互逆关系的结论。
也就是说,
如果放宽检索以达到较好的查全率,
那么查准率就会下降;反之,若是限制检索范围以改善查准率,则查全率就会变坏。当进行
范围宽泛的检索时,查全率很高,可以达到
90%
左右,而这时查准率则很低;相反,当检索
范围小,很专指时,则查准率较高,查全率较低。
14
.
论述影响检索效率的因素:
(
1
)检索语言的性能。检索语言是沟通档案文献存储和查找两个过程的桥梁,对于特定需
求信息与纳入检索系统的信息集合的准确匹配具有直接的影响。
(
2
)检索途径的数量。从理论上说,档案在存入检索系统之后,该系统向利用者提供的检
索途径愈多,它被查到的概率也就愈高。
(
3
)著录标引的质量。检索标识是组织检索工具、进行检索的依据,因此,检索标识的准
确性也是影响查全率、查准率的一个重要因素。
(
4
)检索策略的优劣。档案著录标引的结果对于文献存储的质量至关重要,那么,检索策
3
略在查找过程中则具有决定性的作用。
(
5
)检索人员的素质。不论是手工检索系统还是机械检索系统,都要由检索人员来参与和
控制检索过程,
上述因素中除检索语言之外,
均与检索人员的素质有关,
因此检索人员的素
质对于检索效率有直接的影响。
15
.简档案文献检索系统评价的目的和作用
系统评价就是对系统的效率和价值进行测定,
它是对系统进行科学管理的重要依据。
主要目
的是对系统整体及其组成要素的功能、特性和运营情况进行评测。
作用主要有三个方面:
(
1
)明确系统当前的性能特征,从而科学地、最大限度地发挥系统的功能。
(
2
)发现系统现存的缺陷及其原因,提出改进意见或其
信息检索系统性能测试他对策。
(
3
)为设计和建立新的档案文献检索系统提供参考。
16
.
试述系统评价的指标体系:
档案文献检索系统评价的指标主要包括数据覆盖率、
检索效
率、响应时间、可存取性、费用等。
(
1
)
数据覆盖率又称为收录范围,
指一个检索系统已收录数据量与应收录数据量的百分比,
它反映该检索系统的资源拥有状况。
(
2
)查全率和查准率。二者实质上反映了系统运行结果与利用者检索要求的吻合程度,是
衡量检索系统性能的最重要的指标。
需要说明的是,
在实际测评时根据公式计算出来的查全
率和查准率常常不能完全准确地反映系统的实际检索效率,其主要原因是:
①对文献相关性的判断不可避免地带有主观性和模糊性。
②查全率是以检索系统中与某一检索要求相关的文献总数作为分母,
计算检出的相关文献在
全部相关文献中的比例,而检索人员和评价人员都难以确定这个总数是多少。
③在计算查全率、查准率时,“相关文献”被同等看待,不作任何区分,而实际上,在一组
相关文献中,每一份文献的相关程度是有差异的。
(
3
)响应时间。它是指一次检索过程中从利用者向检索系统提出问题到检索系统完成匹配
过程,形成检索结果,交付利用者所需的全部时间。
(
4
)可存取性。是指一个档案文献检索系统的易用程度。
(
5
)费用。构造和维持一个档案文献检索系统需要投入一定的费用,利用者检索档案文献
也要有一定的支出,这些投入包括货币和活劳动两种形式。
4
17
.简系统评价步骤
(
1
)制订评价方案。包括确定对该系统进行评价时采用哪些评价指标。
(
2
)评价对象调查。可根据评价对象以及评价指标的特点采用问卷调查、抽样调查等不同
的方法。(
3
)测试。根据样本进行检索测试,然后对检索结果的相关性、响应时间、系统
易用程度等进行判断。
(
4
)数据处理与分析。对调查测试的各种原始数据进行整理、计算,得出有关评价对象的
各种性能指标。
(
5
)对评价结果进行分析,提出改进意见。
第二章
检索语言
1
.检索语言:是根据检索的需要而创制的人工语言,专门用于各种手工的和计算机化的文
献信息检索系统,表达文献主题概念和检索课题概念。
2.
简答检索语言的基本功能
主要有以下四个方面:
①对文献的主题加以标引的功能;
②对内容相同及相关的文献主题加以集中或揭示其相关性的功能;
③对大量文献信息加以系统化或组织化;
④便于将标引用语和检索用语进行相符性比较。
3.
产生检索语言第一项基本功能的结构:
(
1
)编码型标识结构。
(
2
)组配型标识结构。
(
3
)层次型结构标识。
4.
产生检索语言第二项基本功能的结构:
(
1
)等级结构
(
2
)参照系统结构
(
3
)轮排聚类结构。
5.
按构成原理,可分为分类检索语言、主题检索语言和代码检索语言三大类型。
关于信息检索系统性能测试和的介绍到此就结束了,不知道你从中找到你需要的信息了吗 ?如果你还想了解更多这方面的信息,记得收藏关注本站。
信息检索系统性能测试的介绍就聊到这里吧,感谢你花时间阅读本站内容,更多关于、信息检索系统性能测试的信息别忘了在本站进行查找喔。
评论列表