自由,平等,開(kāi)源,分享

:: 管理

2 Posts :: 61 Stories :: 3 Comments :: 0 Trackbacks

　　召回率（Recall Rate）（查全率）：是檢索出的相關(guān)文檔數(shù)和文檔庫(kù)中所有的相關(guān)文檔數(shù)的比率，衡量的是檢索系統(tǒng)的查全率。
　　精度（Precision）（查準(zhǔn)率）：是檢索出的相關(guān)文檔數(shù)與檢索出的文檔總數(shù)的比率，衡量的是檢索系統(tǒng)的查準(zhǔn)率。

　　對(duì)于一個(gè)檢索系統(tǒng)來(lái)講，召回率和精度不可能兩全其美：召回率高時(shí)，精度低，精度高時(shí)，召回率低。
　　所以常常用 11 種召回率下 11 種精度的平均值來(lái)衡量一個(gè)檢索系統(tǒng)的精度。
　　對(duì)于搜索引擎系統(tǒng)來(lái)講，因?yàn)闆](méi)有一個(gè)搜索引擎系統(tǒng)能夠搜集到所有的 Web 網(wǎng)頁(yè)，所以召回率很難計(jì)算。
　　目前的搜索引擎系統(tǒng)都非常關(guān)心精度。

　　影響一個(gè)搜索引擎系統(tǒng)的性能有很多因素，最主要的是信息檢索模型，包括文檔和查詢的表示方法、評(píng)價(jià)文檔和用戶查詢相關(guān)性的匹配策略、查詢結(jié)果的排序方法和用戶進(jìn)行相關(guān)度反饋的機(jī)制。

　　從一個(gè)大規(guī)模數(shù)據(jù)集合中檢索文檔的時(shí)，可把文檔分成四組：

　　　　※　系統(tǒng)檢索到的相關(guān)文檔（A）
　　　　※　系統(tǒng)檢索到的不相關(guān)文檔（B）
　　　　※　相關(guān)但是系統(tǒng)沒(méi)有檢索到的文檔（C）
　　　　※　相關(guān)但是被系統(tǒng)檢索到的文檔（D）

	相關(guān)	不相關(guān)
檢索到	A	B
未檢索到	C	D

　　直觀的說(shuō)，一個(gè)好的檢索系統(tǒng)檢索到的相關(guān)文檔越多越好，不相關(guān)文檔越少越好。

　　召回率 R：用檢索到相關(guān)文檔數(shù)作為分子，所有相關(guān)文檔總數(shù)作為分母，即 R=A/(A+C)。
　　精度 P：用檢索到相關(guān)文檔數(shù)作為分子，所有檢索到的文檔總數(shù)作為分母，即 P=A/(A+B)。

　　舉例：一個(gè)數(shù)據(jù)庫(kù)有 500 個(gè)文檔，其中有 50 個(gè)文檔符合定義的問(wèn)題；系統(tǒng)檢索到 75 個(gè)文檔，但其中只有 45 個(gè)文檔符合定義。

　　　　召回率：R=45/50=90%。
　　　　精度：P=45/75=60%。

　　上例中：系統(tǒng)檢索是比較有效的，召回率為 90%；但是結(jié)果有很大的噪音，有近一半的檢索結(jié)果是不相關(guān)。

　　研究表明：在不犧牲精度的情況下，獲得一個(gè)高召回率是很困難的；召回率越高，精度下降的很快，而且這種趨勢(shì)不是線性的。

posted on 2008-05-08 09:22 龍震閱讀(1540) 評(píng)論(0) 編輯收藏所屬分類: 概念,術(shù)語(yǔ),基礎(chǔ),理解

新用戶注冊(cè) 刷新評(píng)論列表


只有注冊(cè)用戶登錄后才能發(fā)表評(píng)論。




網(wǎng)站導(dǎo)航: 博客園 IT新聞 Chat2DB C++博客博問(wèn) 管理
相關(guān)文章: 云計(jì)算（Cloud Computing，CC）軟件即服務(wù)（Software as a Service，SaaS）搜索引擎中的召回率（查全率）與精度（查準(zhǔn)率） Java 繼承機(jī)制 Java 多態(tài)機(jī)制 Java 訪問(wèn)控制 Java 消息 Java 類的成員方法 Java 類的數(shù)據(jù)成員 Java 封裝機(jī)制

自由,平等,開(kāi)源,分享

留言簿(3)

我參與的團(tuán)隊(duì)

隨筆分類(2)

文章分類(61)

收藏夾

搜索

積分與排名

最新評(píng)論