<rt id="bn8ez"></rt>
<label id="bn8ez"></label>

  • <span id="bn8ez"></span>

    <label id="bn8ez"><meter id="bn8ez"></meter></label>

    當幸福來敲門

    我就會牢牢抓住!
    隨筆 - 50, 文章 - 3, 評論 - 8, 引用 - 0
    數據加載中……

    Lucene搜集 排序 、過濾、分詞

    2010-03-24 22:05 859人閱讀 評論(0) 收藏 舉報

    1.    排序

    1.1. Sort

    public Sort()

    public Sort(String field)

    public Sort(String field,Boolean reverse) //默認為false,降序排序

    public Sort(String[] fields)

    public Sort(SortField field)

    public Sort(SortField[] fields)

    Sort sort=new Sort(bookname);按照“bookname“這個Field值進行降序排序

    Sort sort=new Sort(bookname,true) //升序排序

    Sort sort=new Sort(new String[]{bookNumber,bookname,publishdate});按照三個Field進行排序,但無法指定升序排序,所以用SortField

    1.2. SortField

    public SortField(String field)

    public SortField(String field,Boolean reverse)

    public SortField(String field,int type) //type表示當前Field值的類型

    public SortField(String field,int type,boolean reverse) //默認為false,升序

    Field值的類型:SortField.STRINGSortField.INTSortField.FLOAT

    SortField sf1=new SortField(“bookNumber”,SortField.INT,false);

    SortField sf2=new SortField(“bookname”,SortField.STRING,false);

    1.3. 指定排序的法則

    1.3.1.按照文檔的得分降序排序

    Hits hits=searcher.search(query,Sort.RELEVANCE);

    1.3.2.按文檔的內部ID升序排序

    Hits hits=searcher.search(query, Sort.INDEXORDER);

    1.3.3.按照一個Field來排序

    Sort sort=new Sort();

    SortField sf=new SortField(“bookNumber”,SortField.INT,false);

    sort.setSort(sf);

    Hits hits=searcher.search(query,sort);

    1.3.4.按照多個Field來排序

    Sort sort=new Sort();

    SortField sf1=new SortField(bookNumber,SortField.INT,false);//升序

    SortField sf2=new SortField(publishdate,SortField.STRING,true);//降序

    sort.setSort(new SortField[]{sf1,sf2});

    Hits hits=searcher.search(query,sort);

    1.3.5.改變SortField中的Locale信息

    String str1=”我”; String str2=”你”;

    Collator co1=Collator.getInstance(Locale.CHINA);

    Collator co2=Collator.getInstance(Locale.JAPAN);

    System.out.println(Locale.CHINA+:+co1.compare(str1str2));

    System.out.println(Locale.JAPAN+”:”+co2.compare(str1,str2));

    輸出結果為:

    zh_CN:1

    ja_JP:-1

    所以

    public SortField(String field,Locale locale)

    public SortField(String field,Locale locale,boolean reverse)

    2.    過濾器

    使用public Hits search(Query query,Filter filter)

    1)簡單過濾

    Hits hits=searcher.search(query,new AdvancedSecurityFilter());//過濾掉securitylevel0的結果

    2)范圍過濾—RangeFilter

    只顯示中間的

    RangeFilter filter=new RangeFilter(“publishdate”,”1970-01-01”,”1998-12-31”,true,true”);

    Hits hits=searcher.search(query,filter);

     

    無上邊界

    public static RangeFilter More(String fieldname,String lowerTerm)

     

    無下邊界

    public static RangeFilter Less(String fieldname,String upperTerm)

    (3)在結果中查詢QueryFilter

    RangeQuery q=new RangeQuery(new Term(“publicshdate”,”1970-01-01”),

    new Term(“publishdate”,”1999-01-01”),true);

    QueryFilter filter=new QueryFilter(q);

    Hits hits=searcher.search(query,filter);

    3.    分析器Analysis

    3.1. 自帶分析器和過濾器

    Ø         標準過濾器:StandardAnalyzer

    Ø         大小寫轉換器:LowerCaseFilter

    Ø         忽略詞過濾器:StopFilter

    public StopFilter(TokenStream input,String [] stopWords)

    public StopFilter(TokenStream in,String [] stopWords,boolean ignoreCase)

    public StopFilter(TokenStream input,Set stopWords,boolean ignoreCase)

    public StopFilter(TokenStream in, Set stopWords)

    其中,參數TokenStream代表當前正在進行處理的流;String類型的數組代表一個用數組表示的忽略詞集合;Set類型的參數與String一樣,是用來表示忽略詞集合的;boolean表示當與忽略詞集合中的詞進行匹配時,是否需要忽略大小寫。

    Ø         長度過濾器:LengthFilter

    Ø         PerFieldAnalyzerWrapper

    Ø         WhitespaceAnalyzer

    String str="str1 str2 str3";

           StringReader reader=new StringReader(str);

           Analyzer anlyzer=new WhitespaceAnalyzer();

          

           TokenStream ts=anlyzer.tokenStream("", reader);

           Token t=null;

           while( (t=ts.next())!=null ){

               System.out.println(t.termText());

           }

    3.2. 第三方過分析器

    Ø         單字分詞

    Ø         二分法:CJKAnalyzer、中科院ICTCLAS分詞、JE分詞

    Ø         詞典分詞

    3.2.1.JE分詞用法

    3.2.1.1.    示例

    import jeasy.analysis.MMAnalyzer;

    IndexWriter writer = new IndexWriter(INDEX_STORE_PATH, new MMAnalyzer()

    , true);

    String str=" Lucene是一個全文檢索引擎的架構,"+

               "提供了完整的查詢引擎和索引引擎。Lucene以其方便使用、快" +

               "速實施以及靈活性受到廣泛的關注。它可以方便地嵌入到各種應用" +

               "中實現針對應用的全文索引、檢索功能,本總結使用lucene--2.3.2";

           MMAnalyzer analyzer=new MMAnalyzer();

           try{

               System.out.println(analyzer.segment(str, "|"));

           }

           catch(Exception e)

           {

               e.printStackTrace();

           }

    輸出結果:lucene|一個|全文|檢索|引擎|架構|提供|完整|查詢|。。。。

    3.2.1.2.    設定正向最大匹配的字數

    MMAnalyzer analyzer=new MMAnalyzer(4);

    3.2.1.3.    添加新詞

    MMAnalyzer.addWord(String word);

    MMAnalyzer.addDictionary(Reader reader);

     

    MMAnalyzer analyzer=new MMAnalyzer();

    MMAnalyzer.addWord("邁克爾雷第");

     

    4.    索引的合并

    RAMDirectory RAMDir=new RAMDirectory();

    IndexWriter writer = new IndexWriter(RAMDir, new StandardAnalyzer(), true);//刪除原有索引

    IndexWriter writer2=new IndexWriter(FSDirectory.getDirectory(path,true),

    new StandardAnalyzer(), true);

    writer.addDocument(doc1);

    writer2.addDocument(doc2);

    writer.close();

    writer2.addIndexes(new Directory[]{RAMDir});

    writer2.close();

    posted on 2011-12-30 16:34 wyx 閱讀(1393) 評論(0)  編輯  收藏


    只有注冊用戶登錄后才能發表評論。


    網站導航:
     
    主站蜘蛛池模板: 无码成A毛片免费| 免费在线观看一级片| 天天干在线免费视频| 亚洲免费福利视频| 成年人网站在线免费观看| 亚洲一卡2卡三卡4卡无卡下载| 亚洲国产精品免费观看| 亚洲一级特黄特黄的大片| 全免费a级毛片免费看不卡| 日韩在线视精品在亚洲| 亚洲乱亚洲乱少妇无码| 免费国产成人α片| 亚洲国产av一区二区三区丶| 在线观看免费宅男视频| 五月天婷婷免费视频| 亚洲区小说区激情区图片区| 国产精品免费观看调教网| 亚洲国产成人精品无码一区二区 | 6080午夜一级毛片免费看 | 成人免费a级毛片| 国产综合激情在线亚洲第一页| 亚洲A丁香五香天堂网| 182tv免费视频在线观看| 亚洲电影免费观看| 又黄又爽一线毛片免费观看| a级午夜毛片免费一区二区| 亚洲毛片一级带毛片基地| 日本特黄特色免费大片| 精品一区二区三区免费视频| 99人中文字幕亚洲区| 国产精品久久久久久久久久免费| 在线观看亚洲电影| 久久亚洲免费视频| 无码国模国产在线观看免费| 五月天婷婷免费视频| 亚洲国产视频一区| 亚洲视频在线一区二区| 67pao强力打造高清免费| 日韩精品无码永久免费网站| 亚洲∧v久久久无码精品| 日韩激情无码免费毛片|