在搜索引擎中,切詞語是一個重要的部分,其中包括專有名詞的提取、詞的分割、詞的格式化等等。
TokenStream 類幾乎是所有這些類的基類
有兩個需要被子類實現(xiàn)的方法Token next() 和 close()
首先來看analysis包,這個包主要是提供一些簡單的詞匯化處理
以Tokenizer結(jié)尾的類是將要處理的字符串進行分割成Token流,而根據(jù)分割的依據(jù)的又產(chǎn)生了以下幾個Tokenizer類
首先Tokenizer類是所有以Tokenizer結(jié)尾的類的基類
然后是CharTokenizer,所有的以Tokenizer結(jié)尾的類都是從這個類繼承的
這個類中有一個抽象方法
protected abstract boolean isTokenChar(char c);
另外一個需要被子類覆寫的方法
protected char normalize(char c) {};
是對單個字符進行處理的方法譬如說將英文字母全部轉(zhuǎn)化為小寫
還有一個變量
protected Reader input;
這個讀取器是這些類所處理的數(shù)據(jù)的 數(shù)據(jù)源
輸入一個Reader ,產(chǎn)生一個Token流
這個方法是是否進行切分的依據(jù),依次讀取char流,然后用這個方法對每個char進行檢測,如果返回false則將預(yù)先存儲在
詞匯緩沖區(qū)中的char數(shù)組作為一個Token返回
LetterTokenizer :
protected boolean isTokenChar(char c) {
return Character.isLetter(c);
}
WhitespaceTokenizer:
protected boolean isTokenChar(char c) {
return !Character.isWhitespace(c);
}
LowerCaseTokenizer extends LetterTokenizer:
protected char normalize(char c) {
return Character.toLowerCase(c);
}
在構(gòu)造函數(shù)中調(diào)用super(in);進行和 LetterTokenizer同樣的操作,但是在詞匯化之前所有的詞都轉(zhuǎn)化為小寫了
然后是以Filter結(jié)尾的類,這個類簇主要是對已經(jīng)詞匯化的Token流進行進一步的處理
輸入是Token流 , 輸出仍然是Token流。
TokenFilter extends TokenStream 是所有這些類的父類
protected TokenStream input;
在TokenFilter 中有一個TokenStream 變量,是Filter類簇處理的數(shù)據(jù)源,而Filter類簇又是繼承了TokenStream 類的
有一個public final Token next()方法,這個方法以TokenStream.next()產(chǎn)生的Token流 為處理源,產(chǎn)生的仍然是Token流
只不過中間有一些處理的過程
LowerCaseFilter:將所有的Token流的轉(zhuǎn)化為小寫
t.termText = t.termText.toLowerCase();
StopFilter:過濾掉一些停止詞,這些停止詞由構(gòu)造函數(shù)指定
for (Token token = input.next(); token != null; token = input.next())
if (!stopWords.contains(token.termText))
return token;
比較一下Tokenizer類簇和Filter類簇,可以知道
Tokenizer類簇主要是對輸入的Reader流,實際上是字符流按照一定的規(guī)則進行分割,產(chǎn)生出Token流
其輸入是字符串的Reader流形式,輸出是Token流
Filter類簇主要是對輸入的Token流進行更進一步的處理,如去除停止詞,轉(zhuǎn)化為小寫
主要為一些格式化操作。
由于Filter類簇的輸入輸出相同,所以可以嵌套幾個不同的Filter類,以達到預(yù)期的處理目的。
前一個Filter類的輸出作為后一個Filter類的輸入
而Tokenizer類簇由于輸入輸出不同,所以不能嵌套