<rt id="bn8ez"></rt>
<label id="bn8ez"></label>

  • <span id="bn8ez"></span>

    <label id="bn8ez"><meter id="bn8ez"></meter></label>

    csusky

    常用鏈接

    統(tǒng)計

    最新評論

    Lucene的切詞 analysis包

    在搜索引擎中,切詞語是一個重要的部分,其中包括專有名詞的提取、詞的分割、詞的格式化等等。
    TokenStream 類幾乎是所有這些類的基類
    有兩個需要被子類實現(xiàn)的方法Token next() 和 close()
    首先來看analysis包,這個包主要是提供一些簡單的詞匯化處理
    Tokenizer結(jié)尾的類是將要處理的字符串進行分割成Token流,而根據(jù)分割的依據(jù)的又產(chǎn)生了以下幾個Tokenizer類
    首先Tokenizer類是所有以Tokenizer結(jié)尾的類的基
    然后是CharTokenizer,所有的以Tokenizer結(jié)尾的類都是從這個類繼承的
    這個類中有一個抽象方法
      protected abstract boolean isTokenChar(char c);
    另外一個需要被子類覆寫的方法
      protected char normalize(char c) {};
    是對單個字符進行處理的方法譬如說將英文字母全部轉(zhuǎn)化為小寫

    還有一個變量
    protected Reader input;
    這個讀取器是這些類所處理的數(shù)據(jù)的   數(shù)據(jù)源
    輸入一個Reader ,產(chǎn)生一個Token流


    這個方法是是否進行切分的依據(jù),依次讀取char流,然后用這個方法對每個char進行檢測,如果返回false則將預(yù)先存儲在
    詞匯緩沖區(qū)中的char數(shù)組作為一個Token返回
    LetterTokenizer :
          protected boolean isTokenChar(char c) {
                  return Character.isLetter(c);
          }
    WhitespaceTokenizer:
          protected boolean isTokenChar(char c) {
                  return !Character.isWhitespace(c);
          } 
    LowerCaseTokenizer extends LetterTokenizer:
    protected char normalize(char c) {
          return Character.toLowerCase(c);
       }

       在構(gòu)造函數(shù)中調(diào)用super(in);進行和 LetterTokenizer同樣的操作,但是在詞匯化之前所有的詞都轉(zhuǎn)化為小寫了
     
    然后是以Filter結(jié)尾的類,這個類簇主要是對已經(jīng)詞匯化的Token流進行進一步的處理
     輸入是Token流 , 輸出仍然是Token流。
    TokenFilter extends TokenStream  是所有這些類的父類
    protected TokenStream input;
    在TokenFilter 中有一個TokenStream 變量,是Filter類簇處理的數(shù)據(jù)源,而Filter類簇又是繼承了TokenStream 類的
    有一個public final Token next()方法,這個方法以TokenStream.next()產(chǎn)生的Token流 為處理源,產(chǎn)生的仍然是Token流
    只不過中間有一些處理的過程
    LowerCaseFilter:將所有的Token流的轉(zhuǎn)化為小寫
         t.termText = t.termText.toLowerCase();
    StopFilter:過濾掉一些停止詞,這些停止詞由構(gòu)造函數(shù)指定
         for (Token token = input.next(); token != null; token = input.next())
          if (!stopWords.contains(token.termText))
            return token;


    比較一下Tokenizer類簇和Filter類簇,可以知道
    Tokenizer類簇主要是對輸入的Reader流,實際上是字符流按照一定的規(guī)則進行分割,產(chǎn)生出Token流
    其輸入是字符串的Reader流形式,輸出是Token流

    Filter類簇主要是對輸入的Token流進行更進一步的處理,如去除停止詞,轉(zhuǎn)化為小寫
    主要為一些格式化操作。
    由于Filter類簇的輸入輸出相同,所以可以嵌套幾個不同的Filter類,以達到預(yù)期的處理目的。
    前一個Filter類的輸出作為后一個Filter類的輸入
    而Tokenizer類簇由于輸入輸出不同,所以不能嵌套







    posted on 2008-05-30 14:47 曉宇 閱讀(1030) 評論(1)  編輯  收藏 所屬分類: LUCENE

    評論

    # re: Lucene的切詞 analysis包 2009-06-02 12:56 啊啊啊

    強,真是我需要的  回復(fù)  更多評論   

    主站蜘蛛池模板: 亚洲色大成网站WWW久久九九| 免费大片黄在线观看yw| 亚洲第一区在线观看| 亚洲成av人片天堂网无码】| 女人与禽交视频免费看| 亚洲精品GV天堂无码男同| 日本免费网站观看| 免费高清A级毛片在线播放| 亚洲综合区小说区激情区 | 国产99在线|亚洲| 免费看少妇作爱视频| 国产精品亚洲综合一区在线观看| 狼友av永久网站免费观看| 午夜亚洲国产精品福利| 亚洲精品第一国产综合精品99| 一进一出60分钟免费视频| 亚洲日韩精品无码专区网址| 久久午夜夜伦鲁鲁片无码免费| 亚洲精品在线网站| 免费黄网在线观看| selaoban在线视频免费精品| 亚洲成AV人片天堂网无码| 成人在线免费看片| 男性gay黄免费网站| 亚洲级αV无码毛片久久精品| 最近2022中文字幕免费视频 | 亚洲综合无码一区二区| 成人毛片手机版免费看| yellow视频免费看| 亚洲一区二区成人| 免费被黄网站在观看| 日批视频网址免费观看| 久久精品亚洲AV久久久无码 | 亚洲国产成人精品91久久久| 美女被cao网站免费看在线看| 亚洲1区1区3区4区产品乱码芒果 | 亚洲人JIZZ日本人| 我要看WWW免费看插插视频| sss在线观看免费高清| 亚洲午夜电影在线观看高清 | 中文字幕免费在线播放|