ElasticSearch是一個基于Lucene構建的開源,分布式,RESTful搜索引擎。設計用于云計算中,能夠達到實時搜索,穩定,可靠,快速,安裝使用方便。支持通過HTTP使用JSON進行數據索引。
我們建立一個網站或應用程序,并要添加搜索功能,令我們受打擊的是:搜索工作是很難的。我們希望我們的搜索解決方案要快,我們希望 有一個零配置和一個完全免費的搜索模式,我們希望能夠簡單地使用JSON通過HTTP的索引數據,我們希望我們的搜索服務器始終可用,我們希望能夠一臺開 始并擴展到數百,我們要實時搜索,我們要簡單的多租戶,我們希望建立一個云的解決方案。Elasticsearch旨在解決所有這些問題和更多的。
安裝
以windows操作系統和ES0.19.7版本為例:
①下載elasticsearch-0.19.7.zip
②直接解壓至某目錄,設置該目錄為ES_HOME環境變量
③安裝JDK,并設置JAVA_HOME環境變量
④在windows下,運行 %ES_HOME%\bin\elasticsearch.bat即可運行
分布式搜索elasticsearch單機與服務器環境搭建
先到http://www.elasticsearch.org/download/下 載最新版的elasticsearch運行包,本文寫時最新的是0.19.1,作者是個很勤快的人,es的更新很頻繁,bug修復得很快。下載完解開有三 個包:bin是運行的腳本,config是設置文件,lib是放依賴的包。如果你要裝插件的話就要多新建一個plugins的文件夾,把插件放到這個文件 夾中。
1.單機環境:
單機版的elasticsearch運行很簡單,linux下直接 bin/elasticsearch就運行了,windows運行bin/elasticsearch.bat。如果是在局域網中運行elasticsearch集群也是很簡單的,只要cluster.name設置一致,并且機器在同一網段下,啟動的es會自動發現對方,組成集群。
2.服務器環境:
如果是在服務器上就可以使用elasticsearch-servicewrapper這個es插件,它支持通過參數,指定是在后臺或前臺運行es,并且支持啟動,停止,重啟es服務(默認es腳本只能通過ctrl+c關閉es)。使用方法是到https://github.com/elasticsearch/elasticsearch-servicewrapper下載service文件夾,放到es的bin目錄下。下面是命令集合:
bin/service/elasticsearch +
console 在前臺運行es
start 在后臺運行es
stop 停止es
install 使es作為服務在服務器啟動時自動啟動
remove 取消啟動時自動啟動
在service目錄下有個elasticsearch.conf配置文件,主要是設置一些java運行環境參數,其中比較重要的是下面的
參數:
#es的home路徑,不用用默認值就可以
set.default.ES_HOME=<Path to ElasticSearch Home>
#分配給es的最小內存
set.default.ES_MIN_MEM=256
#分配給es的最大內存
set.default.ES_MAX_MEM=1024
# 啟動等待超時時間(以秒為單位)
wrapper.startup.timeout=300
# 關閉等待超時時間(以秒為單位)
wrapper.shutdown.timeout=300
# ping超時時間(以秒為單位)
wrapper.ping.timeout=300
安裝插件
以head插件為例:
聯網時,直接運行%ES_HOME%\bin\plugin -install mobz/elasticsearch-head
不聯網時,下載elasticsearch-head的zipball的master包,把內容解壓到%ES_HOME%\plugin\head\_site目錄下,[該插件為site類型插件]
安裝完成,重啟服務,在瀏覽器打開 http://localhost:9200/_plugin/head/ 即可
ES概念
cluster
代表一個集群,集群中有多個節點,其中有一個為主節點,這個主節點是可以通過選舉產生的,主從節點是對于集群內部來說 的。es的一個概念就是去中心化,字面上理解就是無中心節點,這是對于集群外部來說的,因為從外部來看es集群,在邏輯上是個整體,你與任何一個節點的通 信和與整個es集群通信是等價的。
shards
代表索引分片,es可以把一個完整的索引分成多個分片,這樣的好處是可以把一個大的索引拆分成多個,分布到不同的節點上。構成分布式搜索。分片的數量只能在索引創建前指定,并且索引創建后不能更改。
replicas
代表索引副本,es可以設置多個索引的副本,副本的作用一是提高系統的容錯性,當個某個節點某個分片損壞或丟失時可以從副本中恢復。二是提高es的查詢效率,es會自動對搜索請求進行負載均衡。
recovery
代表數據恢復或叫數據重新分布,es在有節點加入或退出時會根據機器的負載對索引分片進行重新分配,掛掉的節點重新啟動時也會進行數據恢復。
river
代表es的一個數據源,也是其它存儲方式(如:數據庫)同步數據到es的一個方法。它是以插件方式存在的一個es服 務,通過讀取river中的數據并把它索引到es中,官方的river有couchDB的,RabbitMQ的,Twitter的,Wikipedia 的。
gateway
代表es索引的持久化存儲方式,es默認是先把索引存放到內存中,當內存滿了時再持久化到硬盤。當這個es集群關閉再 重新啟動時就會從gateway中讀取索引數據。es支持多種類型的gateway,有本地文件系統(默認),分布式文件系統,Hadoop的HDFS和 amazon的s3云存儲服務。
discovery.zen
代表es的自動發現節點機制,es是一個基于p2p的系統,它先通過廣播尋找存在的節點,再通過多播協議來進行節點之間的通信,同時也支持點對點的交互。
Transport
代表es內部節點或集群與客戶端的交互方式,默認內部是使用tcp協議進行交互,同時它支持http協議(json格式)、thrift、servlet、memcached、zeroMQ等的傳輸協議(通過插件方式集成)。
分布式搜索elasticsearch中文分詞集成
elasticsearch官方只提供smartcn這個中文分詞插件,效果不是很好,好在國內有medcl大神(國內最早研究es的人之一)寫的兩個中文分詞插件,一個是ik的,一個是mmseg的,下面分別介紹下兩者的用法,其實都差不多的,先安裝插件,命令行:
安裝ik插件:
plugin -install medcl/elasticsearch-analysis-ik/1.1.0
下載ik相關配置詞典文件到config目錄
- cd config
- wget http://github.com/downloads/medcl/elasticsearch-analysis-ik/ik.zip --no-check-certificate
- unzip ik.zip
- rm ik.zip
安裝mmseg插件:
- bin/plugin -install medcl/elasticsearch-analysis-mmseg/1.1.0
下載相關配置詞典文件到config目錄
- cd config
- wget http://github.com/downloads/medcl/elasticsearch-analysis-mmseg/mmseg.zip --no-check-certificate
- unzip mmseg.zip
- rm mmseg.zip
分詞配置
ik分詞配置,在elasticsearch.yml文件中加上
- index:
- analysis:
- analyzer:
- ik:
- alias: [ik_analyzer]
- type: org.elasticsearch.index.analysis.IkAnalyzerProvider
或
- index.analysis.analyzer.ik.type : “ik”
這兩句的意義相同
mmseg分詞配置,也是在在elasticsearch.yml文件中
- index:
- analysis:
- analyzer:
- mmseg:
- alias: [news_analyzer, mmseg_analyzer]
- type: org.elasticsearch.index.analysis.MMsegAnalyzerProvider
或
- index.analysis.analyzer.default.type : "mmseg"
mmseg分詞還有些更加個性化的參數設置如下
- index:
- analysis:
- tokenizer:
- mmseg_maxword:
- type: mmseg
- seg_type: "max_word"
- mmseg_complex:
- type: mmseg
- seg_type: "complex"
- mmseg_simple:
- type: mmseg
- seg_type: "simple"
這樣配置完后插件安裝完成,啟動es就會加載插件。
定義mapping
在添加索引的mapping時就可以這樣定義分詞器
- {
- "page":{
- "properties":{
- "title":{
- "type":"string",
- "indexAnalyzer":"ik",
- "searchAnalyzer":"ik"
- },
- "content":{
- "type":"string",
- "indexAnalyzer":"ik",
- "searchAnalyzer":"ik"
- }
- }
- }
- }
indexAnalyzer為索引時使用的分詞器,searchAnalyzer為搜索時使用的分詞器。
java mapping代碼如下:
- XContentBuilder content = XContentFactory.jsonBuilder().startObject()
- .startObject("page")
- .startObject("properties")
- .startObject("title")
- .field("type", "string")
- .field("indexAnalyzer", "ik")
- .field("searchAnalyzer", "ik")
- .endObject()
- .startObject("code")
- .field("type", "string")
- .field("indexAnalyzer", "ik")
- .field("searchAnalyzer", "ik")
- .endObject()
- .endObject()
- .endObject()
- .endObject()
定義完后操作索引就會以指定的分詞器來進行分詞。
附:
ik分詞插件項目地址:https://github.com/medcl/elasticsearch-analysis-ik
mmseg分詞插件項目地址:https://github.com/medcl/elasticsearch-analysis-mmseg
如果覺得配置麻煩,也可以下載個配置好的es版本,地址如下:https://github.com/medcl/elasticsearch-rtf
elasticsearch的基本用法
最大的特點:
1. 數據庫的 database, 就是 index
2. 數據庫的 table, 就是 tag
3. 不要使用browser, 使用curl來進行客戶端操作. 否則會出現 java heap ooxx...
curl: -X 后面跟 RESTful : GET, POST ...
-d 后面跟數據。 (d = data to send)
1. create:
指定 ID 來建立新記錄。 (貌似PUT, POST都可以)
$ curl -XPOST localhost:9200/films/md/2 -d '
{ "name":"hei yi ren", "tag": "good"}'
使用自動生成的 ID 建立新紀錄:
$ curl -XPOST localhost:9200/films/md -d '
{ "name":"ma da jia si jia3", "tag": "good"}'
2. 查詢:
2.1 查詢所有的 index, type:
$ curl localhost:9200/_search?pretty=true
2.2 查詢某個index下所有的type:
$ curl localhost:9200/films/_search
2.3 查詢某個index 下, 某個 type下所有的記錄:
$ curl localhost:9200/films/md/_search?pretty=true
2.4 帶有參數的查詢:
$ curl localhost:9200/films/md/_search?q=tag:good
{"took":7,"timed_out":false,"_shards":{"total":5,"successful":5,"failed":0},"hits":{"total":2,"max_score":1.0,"hits":[{"_index":"film","_type":"md","_id":"2","_score":1.0, "_source" :
{ "name":"hei yi ren", "tag": "good"}},{"_index":"film","_type":"md","_id":"1","_score":0.30685282, "_source" :
{ "name":"ma da jia si jia", "tag": "good"}}]}}
2.5 使用JSON參數的查詢: (注意 query 和 term 關鍵字)
$ curl localhost:9200/film/_search -d '
{"query" : { "term": { "tag":"bad"}}}'
3. update
$ curl -XPUT localhost:9200/films/md/1 -d { ...(data)... }
4. 刪除。 刪除所有的:
$ curl -XDELETE localhost:9200/films