自由,平等,開源,分享

:: 管理

2 Posts :: 61 Stories :: 3 Comments :: 0 Trackbacks

　　召回率（Recall Rate）（查全率）：是檢索出的相關文檔數和文檔庫中所有的相關文檔數的比率，衡量的是檢索系統的查全率。
　　精度（Precision）（查準率）：是檢索出的相關文檔數與檢索出的文檔總數的比率，衡量的是檢索系統的查準率。

　　對于一個檢索系統來講，召回率和精度不可能兩全其美：召回率高時，精度低，精度高時，召回率低。
　　所以常常用 11 種召回率下 11 種精度的平均值來衡量一個檢索系統的精度。
　　對于搜索引擎系統來講，因為沒有一個搜索引擎系統能夠搜集到所有的 Web 網頁，所以召回率很難計算。
　　目前的搜索引擎系統都非常關心精度。

　　影響一個搜索引擎系統的性能有很多因素，最主要的是信息檢索模型，包括文檔和查詢的表示方法、評價文檔和用戶查詢相關性的匹配策略、查詢結果的排序方法和用戶進行相關度反饋的機制。

　　從一個大規模數據集合中檢索文檔的時，可把文檔分成四組：

　　　　※　系統檢索到的相關文檔（A）
　　　　※　系統檢索到的不相關文檔（B）
　　　　※　相關但是系統沒有檢索到的文檔（C）
　　　　※　相關但是被系統檢索到的文檔（D）

	相關	不相關
檢索到	A	B
未檢索到	C	D

　　直觀的說，一個好的檢索系統檢索到的相關文檔越多越好，不相關文檔越少越好。

　　召回率 R：用檢索到相關文檔數作為分子，所有相關文檔總數作為分母，即 R=A/(A+C)。
　　精度 P：用檢索到相關文檔數作為分子，所有檢索到的文檔總數作為分母，即 P=A/(A+B)。

　　舉例：一個數據庫有 500 個文檔，其中有 50 個文檔符合定義的問題；系統檢索到 75 個文檔，但其中只有 45 個文檔符合定義。

　　　　召回率：R=45/50=90%。
　　　　精度：P=45/75=60%。

　　上例中：系統檢索是比較有效的，召回率為 90%；但是結果有很大的噪音，有近一半的檢索結果是不相關。

　　研究表明：在不犧牲精度的情況下，獲得一個高召回率是很困難的；召回率越高，精度下降的很快，而且這種趨勢不是線性的。

posted on 2008-05-08 09:22 龍震閱讀(1540) 評論(0) 編輯收藏所屬分類: 概念,術語,基礎,理解

新用戶注冊刷新評論列表


只有注冊用戶登錄后才能發表評論。




網站導航: 博客園 IT新聞 Chat2DB C++博客博問管理
相關文章: 云計算（Cloud Computing，CC）軟件即服務（Software as a Service，SaaS）搜索引擎中的召回率（查全率）與精度（查準率） Java 繼承機制 Java 多態機制 Java 訪問控制 Java 消息 Java 類的成員方法 Java 類的數據成員 Java 封裝機制

自由,平等,開源,分享

留言簿(3)

我參與的團隊

隨筆分類(2)

文章分類(61)

收藏夾

搜索

積分與排名

最新評論