召回率(Recall Rate)(查全率):是檢索出的相關(guān)文檔數(shù)和文檔庫(kù)中所有的相關(guān)文檔數(shù)的比率,衡量的是檢索系統(tǒng)的查全率。
精度(Precision)(查準(zhǔn)率):是檢索出的相關(guān)文檔數(shù)與檢索出的文檔總數(shù)的比率,衡量的是檢索系統(tǒng)的查準(zhǔn)率。
對(duì)于一個(gè)檢索系統(tǒng)來(lái)講,召回率和精度不可能兩全其美:召回率高時(shí),精度低,精度高時(shí),召回率低。
所以常常用 11 種召回率下 11 種精度的平均值來(lái)衡量一個(gè)檢索系統(tǒng)的精度。
對(duì)于搜索引擎系統(tǒng)來(lái)講,因?yàn)闆](méi)有一個(gè)搜索引擎系統(tǒng)能夠搜集到所有的 Web 網(wǎng)頁(yè),所以召回率很難計(jì)算。
目前的搜索引擎系統(tǒng)都非常關(guān)心精度。
影響一個(gè)搜索引擎系統(tǒng)的性能有很多因素,最主要的是信息檢索模型,包括文檔和查詢的表示方法、評(píng)價(jià)文檔和用戶查詢相關(guān)性的匹配策略、查詢結(jié)果的排序方法和用戶進(jìn)行相關(guān)度反饋的機(jī)制。
從一個(gè)大規(guī)模數(shù)據(jù)集合中檢索文檔的時(shí),可把文檔分成四組:
※ 系統(tǒng)檢索到的相關(guān)文檔(A)
※ 系統(tǒng)檢索到的不相關(guān)文檔(B)
※ 相關(guān)但是系統(tǒng)沒(méi)有檢索到的文檔(C)
※ 相關(guān)但是被系統(tǒng)檢索到的文檔(D)
相關(guān) | 不相關(guān) | |
檢索到 | A | B |
未檢索到 | C | D |
直觀的說(shuō),一個(gè)好的檢索系統(tǒng)檢索到的相關(guān)文檔越多越好,不相關(guān)文檔越少越好。
召回率 R:用檢索到相關(guān)文檔數(shù)作為分子,所有相關(guān)文檔總數(shù)作為分母,即 R=A/(A+C)。
精度 P:用檢索到相關(guān)文檔數(shù)作為分子,所有檢索到的文檔總數(shù)作為分母,即 P=A/(A+B)。
舉例:一個(gè)數(shù)據(jù)庫(kù)有 500 個(gè)文檔,其中有 50 個(gè)文檔符合定義的問(wèn)題;系統(tǒng)檢索到 75 個(gè)文檔,但其中只有 45 個(gè)文檔符合定義。
召回率:R=45/50=90%。
精度:P=45/75=60%。
上例中:系統(tǒng)檢索是比較有效的,召回率為 90%;但是結(jié)果有很大的噪音,有近一半的檢索結(jié)果是不相關(guān)。
研究表明:在不犧牲精度的情況下,獲得一個(gè)高召回率是很困難的;召回率越高,精度下降的很快,而且這種趨勢(shì)不是線性的。