Luke
雖然剛剛開始,但是可以確定這是一個非常有用的工具。通過這個工具也可以更深入地了解Lucene的索引機制。
Luke具有解釋文檔評分機制的特性,
可以幫助我們了解文檔的評分機制。
1、在Document標簽可以看到,
每個document都有對應的Flag。Flag的意義做如下摘錄(之前沒有這個概念啊,看這個頁面才知道這個概念的)
ITSVopfOLBC
I: indexed, T:Tokenized(是分詞的意思吧。
我原來設置docName需要分詞,而url就不需要分詞了) S:Stored (都是存下來了吧,設置不存,會找不到記錄?可以通過分詞后的term找到該doc,但是docName得不到,因為沒有設置為Store,
貌似遇到過這個問題)
V:Term Vector(
詞向量?這個名詞看起來有些高深...) o: offset p:positions
O:Omit Norms
f:Omit TF(
tf是term出現的頻率?)
L: Lazy 這個是干什么,刪除時的標記嗎?
為了提升效率好像開始刪除時,并沒有真正刪除,而僅僅是做了一個標記。最后優化時,才會做物理刪除(
對Flash的處理用這種方式挺多的,可以深入研究這種機制)