亚洲一区二区在线视频,亚洲国产精品日韩专区AV,国产成A人亚洲精V品无码性色

Sat, 27 Aug 2016 02:26:00 GMT

摘要: from:http://logos.name/archives/515虽然ES提供�?ji��n)replicas shards的机制来保证数据的完整性不�?x��)因为几个节点的奔溃而被破坏�Q�但是定期的数据备䆾以备不时之需依然重要。此外，通过备䆾与恢复也可实现数据在不同集群间的�q�移�Q�直接复制data目录下的索引文�g的做法我��试�q�，但没有成功）(j��)。备份的方式在官�Ҏ(gu��)��档里有清楚的交代�Q�先创徏仓库(repository)�Q�再往... 阅读全文

��马�?/a> 2016-08-27 10:26 发表评论

大数据杂谈微译֠�|Elasticsearch 5.0新版本的�Ҏ(gu��)��与改进

Sat, 13 Aug 2016 06:56:00 GMT

摘要: from:http://www.infoq.com/cn/news/2016/08/Elasticsearch-5-0-Elastic大家好，非常高兴能在�q�里�l�大家分享，首先��单自我介�l�一下，我叫曑֋��Q�是Elastic的工�E�师。Elastic��在今年�U�季的时候发布一个Elasticsearch V5.0的大版本�Q�这�ơ的微信分��n��给大家介绍一�?.0版里面的一些新的特性和改进�?.0�Q?天啦噜，你是... 阅读全文

��马�?/a> 2016-08-13 14:56 发表评论

Sat, 13 Aug 2016 03:26:00 GMT

from:http://www.infoq.com/cn/articles/anatomy-of-an-elasticsearch-cluster-part02

剖析Elasticsearch集群�p�d��늛��?ji��n)当今最��行的分布式搜烦(ch��)引擎Elasticsearch的底层架构和原型实例�?/p>

本文是这个系列的�W�二��，我们��讨论Elasticsearch如何处理分布式的三个C((��p��(consensus)、�ƈ�?concurrency)和一�?consistency))的问题、Elasticsearch分片的内部概念，比如translog(预写日志�Q�W(xu��)AL(Write Ahead Log))�Q�以�?qi��ng)Lucene中的�D�c(di��n)�?/p>

本系列已�l�得到原文著者Ronak Nathani的授�?/p>

在本�p�d��?a style="text-decoration: none; color: #286ab2; outline: none !important; margin: 0px; border: 0px; padding: 0px;">前一��?/a>中，我们讨论�?ji��n)Elasticsearch的底层存储模型及(qi��ng)CRUD�Q�创建、读取、更新和删除�Q�操作的工作原理。在本文中，我将分��nElasticsearch是如何应对分布式�pȝ��中的一些基本挑战的�Q�以�?qi��ng)分片的内部概念。这其中包括�?ji��n)一些操作方面的事情�Q�Insight Data的工�E�师们已�l�在使用Elasticsearch构徏的数据��^��C��上成功地实践�q�真正理解。我��在本文中主要讲�q�ͼ�(x��)

��p��——裂脑问题�?qi��ng)法定票数的重要�?/a>
�q�发
一�?#8212;—��保��d��一�?/a>
Translog(预写日志)
Lucene的段

��p��——裂脑问题�?qi��ng)法定票数的重要�?/h2>
��p��是分布式�pȝ��的一��基本挑战。它要求�pȝ��中的所有进�E?节点必须对给定数据的�?状态达成共识。已�l�有很多��p��法诸如Raft�?a style="text-decoration: none; color: #286ab2; outline: none !important; margin: 0px; border: 0px; padding: 0px;">Paxos�{�，从数学上的证明了(ji��n)是行得通的。但是，Elasticsearch却实��C��(ji��n)自己的共识系�l?zen discovery)�Q�Elasticsearch之父Shay Banon�?a style="text-decoration: none; color: #286ab2; outline: none !important; margin: 0px; border: 0px; padding: 0px;">�q�篇文章中解释了(ji��n)其中的原因。zen discovery模块包含两个部分�Q?/p>
Ping: 执行节点使用ping来发现彼�?/li>
单播(Unicast):该模块包含一个主机名列表�Q�用以控制哪些节炚w��要ping�?/li>
Elasticsearch是端对端的系�l�，其中的所有节点彼此相�q�，有一个master节点保持�z�跃�Q�它�?x��)更新和控制集群内的状态和操作。徏立一个新的Elasticsearch集群要经�q�一�ơ选�D�Q�选�D是ping�q�程的一部分�Q�在所有符合条件的节点中选取一个master�Q�其他节点将加入�q�个master节点。ping间隔参数`ping_interval`的默认值是1�U�，ping��时参数`ping_timeout`的默认值是3�U�。因��点要加入�Q�它们会(x��)发送一个请求给master节点�Q�加入超时参�?span style="font-weight: 600; margin: 0px; border: 0px; padding: 0px;">`join_timeout`的默认值是`ping_timeout`值的20倍。如果master出现问题�Q�那么群集中的其他节点开始重新ping以启动另一�ơ选�D。这个ping的过�E�还可以帮助一个节点在忽然失去master�Ӟ��通过其他节点发现master�?/p>
注意�Q?/span>默认情况下，client节点和data节点不参与这个选�D�q�程。可以在elasticsearch.yml配置文�g中，通过讄��`discovery.zen.master_election.filter_client`属性和`discovery.zen.master_election.filter_data`属性�ؓ(f��)`false`来改变这�U�默认行为�?/p>
故障��(g��)��的原理是这��L(f��ng)��Q�master节点�?x��)ping所有其他节点，以检查它们是否还?g��u)zȝ��Q�然后所有节点ping回去�Q�告诉master他们�q�活着�?/p>
如果使用默认的设�|�，Elasticsearch有可能遭�?a style="text-decoration: none; color: #286ab2; outline: none !important; margin: 0px; border: 0px; padding: 0px;">裂脑问题的困扰。在�|�络分区的情况下�Q�一个节点可以认为master��M��(ji��n)�Q�然后选自�׃��为master�Q�这��导致了(ji��n)一个集��内出现多个master。这可能�?x��)导致数据丢失，也可能无法正��合�q�数据。可以按照如下公式，�Ҏ(gu��)��有资格参加选�D的节�Ҏ(gu��)��Q�设�|�法定票数属性的��|��来避免爆裂的发生�?/p>
`discovery.zen.minimum_master_nodes = int(# of master eligible nodes/2)+1`
�q�个属性要求法定票数的节点加入新当选的master节点�Q�来完成�q�获得新master节点接受的master�w�䆾。对于确保群集稳定性和在群集大��变化时动态地更新�Q�这个属性是非常重要的。图a和b演示�?ji��n)在�|�络分区的情况下�Q�设�|�或不设�|?span style="font-weight: 600; margin: 0px; border: 0px; padding: 0px;">`minimum_master_nodes`属性时�Q�分别发生的现象�?/p>
注意�Q?/span>对于一个生产集��来��_(d��)��使用3个节点专门做master�Q�这3个节点将不服务于��M��客户端请求，而且在�Q何给定时间内��L��只有1个活跃�?/p>
我们已经搞清楚了(ji��n)Elasticsearch中共识的处理�Q�现在让我们来看看它是如何处理�ƈ发的�?/p>

�q�发

Elasticsearch是一个分布式�pȝ��Q�支持�ƈ发请求。当创徏/更新/删除��h��到达��d��片时�Q�它也会(x��)被��^行地发送到分片副本上。但是，�q�些��h��到达的顺序可能是乱序的。在�q�种情况下，Elasticsearch使用乐观�q�发控制�Q�来��保文档的较新版本不�?x��)被旧版本覆盖�?/p>

每个被烦(ch��)引的文档都拥有一个版本号�Q�版本号在每�ơ文档变更时递增�q�应用到文档中。这些版本号用来��保有序接受变更。�ؓ(f��)�?ji��n)确保在我们的应用中更新不�?x��)��D��数据丢失�Q�Elasticsearch的API允许我们指定文�g的当前版本号�Q�以使变更被接受。如果在��h��中指定的版本��h��分片上存在的版本��h��Q�请求失败，�q�意味着文档已经被另一个进�E�更��C��(ji��n)。如何处理失败的��h��Q�可以在应用层面来控制。Elasticsearch�q�提供了(ji��n)其他的锁选项�Q�可以通过�q�篇来阅诅R�?/p>

当我们发送�ƈ发请求到Elasticsearch后，接下来面对的问题�?#8212;—如何保证�q�些��h��的读写一��_(d��)��现在�Q�还无法清楚回答�Q�Elasticsearch应落�?a style="text-decoration: none; color: #286ab2; outline: none !important; margin: 0px; border: 0px; padding: 0px;">CAP三角形的哪条边上�Q�我不打��在�q�篇文章里解册��个素来已久的争辩�?/p>

但是�Q�我们要一��L(f��ng)��下如何��用Elasticsearch实现写读一致�?/p>

一�?#8212;—��保��d��一�?/h2>
对于写操作而言�Q�Elasticsearch支持的一致性��别，与大多数其他的数据库不同�Q�允�?d��ng)R��(g��)查，来查看有多少允许写入的可用分片。可选的值有quorum�?span style="font-weight: 600; margin: 0px; border: 0px; padding: 0px;">one�?span style="font-weight: 600; margin: 0px; border: 0px; padding: 0px;">all。默认的讄��?span style="font-weight: 600; margin: 0px; border: 0px; padding: 0px;">quorum�Q�也��是说只有当大多数分片可用时才允许写操作。即使大多数分片可用�Q�还是会(x��)因�ؓ(f��)某种原因发生写入副本��p�|�Q�在�q�种情况下，副本被认为故障，分片��在一个不同的节点上重建�?/p>
对于��L��作而言�Q�新的文档只有在��h��旉��间隔之后�Q�才能被搜烦(ch��)到。�ؓ(f��)�?ji��n)确保搜索请求的�q�回�l�果包含文档的最新版本，可设�|�replication�?span style="font-weight: 600; margin: 0px; border: 0px; padding: 0px;">sync(默认)�Q�这��操作在主分片和副本碎片都完成后才�q�回写请求。在�q�种情况下，搜烦(ch��)��h��从�Q何分片得到的�q�回�l�果都包含的是文档的最新版本。即使我们的应用��Z��(ji��n)更高的烦(ch��)引率而设�|�了(ji��n)replication=async�Q�我们依然可以�ؓ(f��)搜烦(ch��)��h��讄��参数_preference�?span style="font-weight: 600; margin: 0px; border: 0px; padding: 0px;">primary。这��P��搜烦(ch��)��h��查询主分片�Q��ƈ��保�l�果中的文档是最新版本�?/p>
我们已经�?ji��n)解了(ji��n)Elasticsearch如何处理��p��、�ƈ发和一��_(d��)��让我们来看看分片内部的一些主要概念，正是�q�些特点让Elasticsearch成�ؓ(f��)一个分布式搜烦(ch��)引擎�?/p>

Translog(预写日志)

因�ؓ(f��)关系数据库的发展�Q�预写日�?WAL)或者事务日�?translog)的概忉|��已遍�?qi��ng)数据库领域。在发生故障的时候，translog能确保数据的完整性。translog的基本原理是�Q�变更必��d��数据实际的改变提交到��盘上之前，被记录下来�ƈ提交�?/p>

当新的文档被索引或者旧的文档被更新�Ӟ��Lucene索引��发生变��_(d��)��q�些变更��被提交到磁盘以持久化。这是一个很昂贵的操作，如果在每个请求之后都被执行。因此，�q�个操作在多个变更持久化到磁盘时被执行一�ơ。正如我们在上一��文�?/a>中描�q�的那样�Q�Lucene提交的冲�z?flush)操作默认�?0分钟执行一�ơ或者当translog变得太大(默认512MB)时执行。在�q�样的情况下�Q�有可能失去2个Lucene提交之间的所有变更。�ؓ(f��)�?ji��n)避免这�U�问题，Elasticsearch采用�?ji��n)translog。所有烦(ch��)�?删除/更新操作被写入到translog�Q�在每个索引/删除/更新操作执行之后�Q�默认情况下是每5�U�）(j��)�Q�translog�?x��)被同步以确保变更被持久化。translog被同步到��d��片和副本之后�Q�客��L(f��ng)��才会(x��)收到写请求的��认�?/p>

在两�ơLucene提交之间发生��g故障的情况下�Q�可以通过重放translog来恢复自最后一�ơLucene提交前的��M��丢失的变��_(d��)��所有的变更��会(x��)被烦(ch��)引所接受�?/p>

注意�Q?/span>��在重启Elasticsearch实例之前昑ּ�地执行冲�z�translog�Q�这样启动会(x��)更快�Q�因��重放的translog被清�I��?span style="font-weight: 600; margin: 0px; border: 0px; padding: 0px;">POST /_all/_flush命��o(h��)可用于冲�z�集��中的所有烦(ch��)引�?/p>

使用translog的冲�z�操作，在文件系�l�缓存中的段被提交到��盘�Q��索引中的变更持久化。现在让我们来看看Lucene的段�?/p>

Lucene的段

Lucene索引是由多个�D늻�成，�D�|��w�是一个功能齐全的倒排索引。段是不可变的，允许Lucene��新的文档增量地��d��到烦(ch��)引中�Q�而不用从头重建烦(ch��)引。对于每一个搜索请求而言�Q�烦(ch��)引中的所有段都会(x��)被搜索，�q�且每个�D�会(x��)消耗CPU的时钟周、文件句柄和内存。这意味着�D늚�数量��多�Q�搜索性能�?x��)越低�?/p>

��Z��(ji��n)解决�q�个问题�Q�Elasticsearch�?x��)合�q�小�D�到一个较大的�D�（如下图所�C�）(j��)�Q�提交新的合�q�段到磁盘，�q�删除那些旧的小�D�c(di��n)�?/p>

�q�会(x��)在后台自动执行而不中断索引或者搜索。由于段合�ƈ�?x��)耗尽资源�Q�媄(ji��ng)响搜索性能�Q�Elasticsearch�?x��)节制合�q�过�E�，为搜索提供��够的可用资源�?/p>

接下来有什么？

从搜索请求角度来��_(d��)��一个Elasticsearch索引中给定分片内的所有Lucene�D�都�?x��)被搜�?ch��)�Q�但是，从Elasticsearch集群角度而言�Q�获取所有匹配的文档或者深入有序结果文档是有害的。在本系列的后箋文章中我们将揭晓原因�Q�让我们来看一下接下来的主题，内容包括�?ji��n)一些在Elasticsearch中�ؓ(f��)相关性搜索结果的低�g�q�所做的权衡�?/p>

Elasticsearch准实时性方面的内容
��Z��么搜索中的深层分��|��有害的？
搜烦(ch��)相关性计��中的权衡之�?/li>

查看原文地址�Q?/span>Anatomy of an Elasticsearch Cluster: Part II

��马�?/a> 2016-08-13 11:26 发表评论

Sat, 13 Aug 2016 03:26:00 GMT

from:http://www.infoq.com/cn/articles/anatomy-of-an-elasticsearch-cluster-part03

剖析Elasticsearch集群�p�d��늛��?ji��n)当今最��行的分布式搜烦(ch��)引擎Elasticsearch的底层架构和原型实例。本文是�q�个�p�d��的第三篇�Q�我们将讨论Elasticsearch是如何提供近实时搜烦(ch��)�q�权衡搜索相��x��计��的�?/p>

本系列已�l�得到原文著者Ronak Nathani的授�?/p>

在本�p�d��?a style="text-decoration: none; color: #286ab2; outline: none !important; margin: 0px; border: 0px; padding: 0px;">前一��?/a>中，我们讨论�?ji��n)Elastisearch如何解决分布式系�l�中的一些基本挑战。在本文中，我们��探讨Elasticsearch在近实时搜烦(ch��)�?qi��ng)其权衡计算搜�?ch��)相关性方面的内容�Q�Insight Data的工�E�师们已�l�在使用Elasticsearch构徏的数据��^��C��上，�Ҏ(gu��)��有所实践。我��在本文中主要讲�q�ͼ�(x��)

�q�实时搜�?/a>
��Z��么深层分��在分布式搜索中是有害的�Q?/a>
计算搜烦(ch��)相关性中的权�?/a>

�q�实时搜�?/h2>
虽然Elasticsearch中的变更不能立即可见�Q�它�q�是提供�?ji��n)一个近实时的搜索引擎。如 前一��?/a>中所�q�ͼ�提交Lucene的变更到��盘是一个代��h��늚�操作。�ؓ(f��)�?ji��n)避免在文档��?gu��)��询依然有效的时候，提交变更到磁盘，Elasticsearch在内存缓冲和��盘之间提供�?ji��n)一个文件系�l�缓存。内存缓�?默认情况�?�?�U�刷��C��ơ，在文件系�l�缓存中使用倒排索引创徏一个新的段。这个段是开攄��q�对搜烦(ch��)有效�?/p>
文�g�pȝ��~�存可以拥有文�g句柄�Q�文件可以是开攄��、可�ȝ��或者是关闭的，但是它存在于内存之中。因为刷新间隔默认是1�U�，变更不能立即可见�Q�所以说是近实时的。因�?a style="text-decoration: none; color: #286ab2; outline: none !important; margin: 0px; border: 0px; padding: 0px;">translog是尚未落盘的变更持久化记录，它能有助于CRUD操作斚w��的近实时性。对于每�ơ请求来��_(d��)��在查扄��x��之前�Q��Q何最�q�的变更都能从translog搜烦(ch��)刎ͼ�因此客户端可以访问到所有的�q�实时变更�?/p>
你可以在创徏/更新/删除操作后显式地��h��索引�Q��变更立即可见�Q�但我�ƈ不推荐你�q�样做，因�ؓ(f��)�q�样�?x��)创建出来非常多的�?a style="text-decoration: none; color: #286ab2; outline: none !important; margin: 0px; border: 0px; padding: 0px;">segment而媄(ji��ng)响搜索性能。对于每�ơ搜索请求来��_(d��)��l�定Elasticsearch索引分片中的全部Lucene�D�都�?x��)被搜�?ch��)刎ͼ�但是�Q�对于Elasticsearch来说�Q�获取全部匹配的文档或者很��q��果页的文档是有害的。让我们来一��L(f��ng)��看�ؓ(f��)什么是�q�样�?/p>

��Z��么深层分��在分布式搜索中是有害的�Q?/h2>
当我们的一�ơ搜索请求在Elasticsearch中匹配了(ji��n)很多的文档，默认情况下，�q�回的第一��只包含�?0条结果。search API提供�?span style="font-weight: 600; margin: 0px; border: 0px; padding: 0px;">from�?span style="font-weight: 600; margin: 0px; border: 0px; padding: 0px;">size参数�Q�用于指定对于匹配搜索的全部文档�Q�要�q�回多深的结果。�D例来��_(d��)��如果我们想看到匹配搜索的文档中，排名�?span style="font-weight: 600; margin: 0px; border: 0px; padding: 0px;">50�?span style="font-weight: 600; margin: 0px; border: 0px; padding: 0px;">60之间的文档，可以讄��from=50�Q?span style="font-weight: 600; margin: 0px; border: 0px; padding: 0px;">size=10。当每个分片接收到这个搜索请求后�Q�各自会(x��)创徏一个容量�ؓ(f��)from+size的优先队列来存储该分片上的搜索结果，然后��结果返回给协调节点�?/p>
如果我们想看到排名�ؓ(f��)50,000�?span style="font-weight: 600; margin: 0px; border: 0px; padding: 0px;">50,010的结果，那么每个分片要创��Z��个容量�ؓ(f��)50,010的优先队列来存储�l�果�Q�而协调节点要在内存中�?span style="font-weight: 600; margin: 0px; border: 0px; padding: 0px;">数量为shards * 50,010的结果进行排序。这个��别的分页有可能得到结果，也有可以无法实现�Q�这取决于我们的��g资源�Q�但是这��以说明�Q�我们得非常��心(j��)��C��用深分页�Q�因��非常�Ҏ(gu��)��使我们的集群崩溃�?/p>
一�U�获取全部匹配结果文档的可行性方案是使用scroll API�Q�它的角色更像关�p�L��据库中的游标。��?a style="text-decoration: none; color: #286ab2; outline: none !important; margin: 0px; border: 0px; padding: 0px;">scroll API无法�q�行排序�Q�每个分片只要有匚w��搜烦(ch��)的文档，��׃��(x��)持箋发送结果给协调节点�?/p>
获取大量文档的时候，对结果进行得分排序会(x��)非常昂贵。�ƈ且由于Elasticsearch是分布式�pȝ��Q��ؓ(f��)每个文档计算搜烦(ch��)相关性得分是非常昂贵的。现在，让我们一��L(f��ng)��看计��搜索相��x��的诸多权衡中的一�U��?/p>

计算搜烦(ch��)相关性中的权�?/h2>
Elasticsearch使用tf-idf来计��?a href="http://insightdataengineering.com/blog/elasticsearch-crud/#search-relevance" style="text-decoration: none; color: #286ab2; outline: none !important; margin: 0px; border: 0px; padding: 0px;">搜烦(ch��)相关�?/a>。由于其分布式的性质�Q�计��全局的idf(inverse document frequency�Q�逆文档频�?非常昂贵。反之可以这��P��每个分片计算本地的idf�q�将相关性得分分配给�l�果文档�Q�返回的�l�果只关乎该分片上的文档。同样地�Q�所有分片��用本地idf计算的相��x��得分，�q�回�l�果文档�Q�协调节点对所有结果排序�ƈ�q�回前几条。这样做在大多数情况下是没有问题的，除非索引的关键字词项有倾斜或者单个分片上没有代表全局的��够数据�?/p>
比如��_(d��)��如果我们搜烦(ch��)“insight”�q�个词，但包�?insight"�q�个词项的大多数文档都存攑֜�一个分片上�Q�这样以来匹配查询的文档��不能公�q�_��在每个分片上�q�行排序�Q�因为每个分片上的本地idf的值非�怸�同，得到的搜索结果可能不�?x��)非常相兟뀂同样地�Q�如果没有��够的数据�Q�那么对于某些搜索而言�Q�本地idf的值可能大有不同，�l�果也会(x��)不如预期相关。在有��够数据的真实场景中，本地idf��g��般会(x��)��于均等�Q�搜索结果是相关的，因�ؓ(f��)文档得到�?ji��n)公�q�的得分�?/p>
�q�里�?�U�应�Ҏ(gu��)��地idf得分的办法，但都不徏议真正在生��环境中��用�?/p>
一�U�办法是一索引一分片�Q�本地idf��x��全局idf�Q�但�q�没有�ؓ(f��)�q�行计算/水��^伸羃留有余地�Q�对于大型烦(ch��)引�ƈ不实用�?/li>
另一�U�办法是在搜索请求中使用dfs_query_then_search (dfs = distributed frequency search�Q�分布式频率搜烦(ch��)) 参数�Q�这样以来，�?x��)首先计��每个分片的本地idf�Q�然后综合这些本地idf的值来计算整个索引的全局idf��|��最后��用全局idf计算相关性得分来�q�回�l�果。这�U�方式不为生产环境推荐，因�ؓ(f��)有��够的数据��保词项频率分布均匀�?/li>
在本�p�d��的过��d��中�Q�我们回��了(ji��n)一些Elasticsearch的基本原则，对于我们理解�q�上手Elasticsearch�Q�这些内定w��帔R��要。在接下来的一��中�Q�我��用Apache Spark来研�I�Elasticsearch中的索引数据�?/p>
查看英文原文�Q?/span>Anatomy of an Elasticsearch Cluster: Part III

��马�?/a> 2016-08-13 11:26 发表评论

剖析Elasticsearch集群�p�d��W�一��?Elasticsearch的存储模型和��d��操作

Sat, 13 Aug 2016 03:15:00 GMT

from:http://www.infoq.com/cn/articles/analysis-of-elasticsearch-cluster-part01

剖析Elasticsearch集群�p�d��늛��?ji��n)当今最��行的分布式搜烦(ch��)引擎Elasticsearch的底层架构和原型实例�?/p>

本文是这个系列的�W�一��，在本文中�Q�我们将讨论的Elasticsearch的底层存储模型及(qi��ng)CRUD�Q�创建、读取、更新和删除�Q�操作的工作原理�?/p>

本系列已�l�得到原文著者Ronak Nathani的授�?/p>

Elasticsearch是当今最��行的分布式搜烦(ch��)引擎�Q�GitHub�?SalesforceIQ、Netflix�{�公司将其用于全文检索和分析应用。在Insight�Q�我们用��C��(ji��n)Elasticsearch的诸多不同功能，比如�Q?/p>

全文��(g��)�?ul style="margin: 0px 0px 15px 10px; padding: 0px; border: 0px; clear: left;">
比如扑ֈ�与搜索词��?term)最相关的维基百�U�文章�?/li>

聚合

比如在广告网�l�中�Q�可视化的搜索词��的竞�h(hu��n)直方图�?/li>

地理�I�间API

比如在顺风�R�q�_��Q�匹配最�q�的司机和乘客�?/li>

正是因�ؓ(f��)Elasticsearch如此��行�q�且��在我们�w�边�Q�我军_��深入研究一下。本文，我将分��nElasticsearch的存储模型和CRUD操作的工作原理�?/p>

当我在思考分布式�pȝ��是如何工作时�Q�我脑�v里的图案是这��L(f��ng)��Q?/p>

水面以上的是API�Q�以下的才是真正的引擎，一切魔�q�般的事仉��发生在水下。本文所��x��的就是水下的部分�Q�我们将��x��Q?/p>

Elasticsearch是主从架构还是无��L��?/li>
Elasticsearch的存储模型是什么样�?/li>
Elasticsearch是怎么执行写操作的
Elasticsearch是怎么执行��L��作的
如何定义搜烦(ch��)�l�果的相��x�?/li>

在我们深入这些概念之前，让我们熟�(zh��n)�下相关的术语�?/p>

1 辨析Elasticsearch的烦(ch��)引与Lucene的烦(ch��)�?/h2>

Elasticsearch中的索引是组�l�数据的逻辑�I�间(��好比数据库)�?个Elasticsearch的烦(ch��)引有1个或者多个分�?默认�?�?。分片对应实际存储数据的Lucene的烦(ch��)引，分片自��n��是一个搜索引擎。每个分片有0或者多个副�?默认�?�?。Elasticsearch的烦(ch��)引还包含"type"(��像数据库中的表)�Q�用于逻辑上隔��ȝ��(ch��)引中的数据。在Elasticsearch的烦(ch��)引中�Q�给定一个type�Q�它的所有文档会(x��)拥有相同的属�?��像表的schema)�?/p>

(点击攑֤�囑փ�)

图a展示�?ji��n)一个包�?个分片的Elasticsearch索引�Q�每个分片拥�?个副本。这些分片组成了(ji��n)一个Elasticsearch索引�Q�每个分片自�w�是一个Lucene索引。图b展示�?ji��n)Elasticsearch索引、分片、Lucene索引和文档之间的逻辑关系�?/p>

对应于关�p�L��据库术语

Elasticsearch Index == Database  Types == Tables  Properties == Schema

现在我们熟�?zh��n)�了(ji��n)Elasticsearch世界的术语，接下来让我们看一下节�Ҏ(gu��)��哪些不同的角艌Ӏ?/p>

2 节点�c�d��

一个Elasticsearch实例是一个节点，一�l�节点组成了(ji��n)集群。Elasticsearch集群中的节点可以配置�?�U�不同的角色�Q?/p>

主节�?/span>�Q�控制Elasticsearch集群�Q�负责集��中的操作，比如创徏/删除一个烦(ch��)引，跟踪集群中的节点�Q�分配分片到节点。主节点处理集群的状态�ƈ�q�播到其他节点，�q�接收其他节点的��认响应�?/p>
每个节点都可以通过讑֮�配置文�gelasticsearch.yml中的node.master属性�ؓ(f��)true(默认)成�ؓ(f��)主节炏V�?/p>
对于大型的生产集��来��_(d��)��推荐使用一个专门的主节�Ҏ(gu��)��控制集群�Q�该节点��不处理��M��用户��h��?/p>
数据节点�Q�持有数据和倒排索引。默认情况下�Q�每个节炚w��可以通过讑֮�配置文�gelasticsearch.yml中的node.data属性�ؓ(f��)true(默认)成�ؓ(f��)数据节点。如果我们要使用一个专门的主节点，应将�?span style="font-weight: 600; margin: 0px; border: 0px; padding: 0px;">node.data属性设�|��ؓ(f��)false�?/p>
客户端节�?/span>�Q�如果我们将node.master属性和node.data属性都讄��?span style="font-weight: 600; margin: 0px; border: 0px; padding: 0px;">false�Q�那么该节点��是一个客��L(f��ng)��节点�Q�扮演一个负载均衡的角色�Q�将到来的请求�\由到集群中的各个节点�?/p>

Elasticsearch集群中作为客��L(f��ng)��接入的节点叫协调节点。协调节点会(x��)��客��L(f��ng)��h��路由到集��中合适的分片上。对于读��h��来说�Q�协调节�Ҏ(gu��)��ơ会(x��)选择不同的分片处理请求，以实现负载均衡�?/p>

在我们开始研�I�发送给协调节点的CRUD��h��是如何在集群中传播�ƈ被引擎执行之前，让我们先来看一下Elasticsearch内部是如何存储数据，以支持全文检索结果的低�g�q�服务的�?/p>

存储模型

Elasticsearch使用�?a style="text-decoration: none; color: #286ab2; outline: none !important; margin: 0px; border: 0px; padding: 0px;">Apache Lucene�Q�后者是Doug Cutting(Apache Hadoop之父)使用Java开发的全文��(g��)索工具库�Q�其内部使用的是被称为倒排索引的数据结构，其设计是为全文检索结果的低�g�q�提供服务。文档是Elasticsearch的数据单位，�Ҏ(gu��)��档中的词��进行分词，�q�创建去重词��的有序列表�Q�将词项与其在文档中出现的位�|�列表关联，便�Ş成了(ji��n)倒排索引�?/p>

�q�和一本书后面的烦(ch��)引非常类��|��即书中包含的词汇与其出现的页码列表关联。当我们说文档被索引�?ji��n)，我们指的是倒排索引。我们来看下如下2个文档是如何被倒排索引的：(x��)

文档1(Doc 1): Insight Data Engineering Fellows Program
文档2(Doc 2): Insight Data Science Fellows Program

如果我们��x��包含词项"insight"的文档，我们可以扫描�q�个(单词有序�?倒排索引�Q�找�?insight"�q�返回包含改词的文档ID�Q�示例中是Doc 1和Doc 2�?/p>

��Z��(ji��n)提高可检索�?比如希望大小写单词都�q�回)�Q�我们应当先分析文档再对其烦(ch��)引。分析包�?个部分：(x��)

��句子词条化为独立的单词
��单词规范化为标准�Ş�?/li>

默认情况下，Elasticsearch使用标准分析器，它��用了(ji��n)�Q?/p>

标准分词器以单词为界来切�?/li>
��写词条(token)�q��o(h��)器来转换单词

�q�有很多可用的分析器在此不列举，请参考相��x��档�?/p>

��Z��(ji��n)实现查询时能得到对应的结果，查询时应使用与烦(ch��)引时一致的分析器，�Ҏ(gu��)��档进行分析�?/p>

注意�Q�标准分析器包含�?ji��n)停用词�q��o(h��)器，但默认情况下没有启用�?/p>

现在�Q�倒排索引的概念已�l�清楚，让我们开始CRUD操作的研�I�吧。我们从写操作开始�?/p>

剖析写操�?/h2>

创徏((C)reate)

当我们发送烦(ch��)引一个新文档的请求到协调节点后，��发生如下一�l�操作：(x��)

Elasticsearch集群中的每个节点都包含了(ji��n)改节点上分片的元数据信息。协调节�?默认)使用文档ID参与计算�Q�以便�ؓ(f��)路由提供合适的分片。Elasticsearch使用MurMurHash3函数�Ҏ(gu��)��档ID�q�行哈希�Q�其�l�果再对分片数量取模�Q�得到的�l�果��x��索引文档的分片�?/p>
```
shard = hash(document_id) % (num_of_primary_shards)
```
当分片所在的节点接收到来自协调节点的��h��后，�?x��)将该请求写入translog(我们��在本系列接下来的文章中讲到)�Q��ƈ��文档加�?a style="text-decoration: none; color: #286ab2; outline: none !important; margin: 0px; border: 0px; padding: 0px;">内存�~�冲。如果请求在��d��片上成功处理�Q�该��h��?x��)�ƈ行发送到该分片的副本上。当translog被同�?fsync)到全部的��d��片及(qi��ng)其副本上后，客户端才�?x��)收到确认通知�?/li>
内存�~�冲�?x��)被周期性刷�?默认�?�U?�Q�内容将被写到文件系�l�缓存的一个新�D�上。虽然这个段�q�没有被同步(fsync)�Q�但它是开攄��Q�内容可以被搜烦(ch��)到�?/li>
�?0分钟�Q�或者当translog很大的时候，translog�?x��)被清空�Q�文件系�l�缓存会(x��)被同步。这个过�E�在Elasticsearch中称为冲�z?flush)。在冲洗�q�程中，内存中的�~�冲��被清除�Q�内容被写入一个新�D�c(di��n)��段的fsync��创��Z��个新的提交点�Q��ƈ��内容刷新到��盘。旧的translog��被删除�q�开始一个新的translog�?/li>

下图展示�?ji��n)写��h��?qi��ng)其数据��?/p>

(点击攑֤�囑փ�)

更新((U)pdate)和删�?(D)elete)

删除和更��C��都是写操作。但是Elasticsearch中的文档是不可变的，因此不能被删除或者改动以展示其变更。那么，该如何删除和更新文档呢？

��盘上的每个�D�都有一个相应的.del文�g。当删除��h��发送后�Q�文档�ƈ没有真的被删除，而是�?span style="font-weight: 600; margin: 0px; border: 0px; padding: 0px;">.del文�g中被标记为删除。该文档依然能匹配查询，但是�?x��)在�l�果中被�q��o(h��)掉。当�D�合�q?我们��在本系列接下来的文章中讲到)�Ӟ��?span style="font-weight: 600; margin: 0px; border: 0px; padding: 0px;">.del文�g中被标记为删除的文档��不�?x��)被写入新段�?/p>

接下来我们看更新是如何工作的。在新的文档被创建时�Q�Elasticsearch�?x��)��?f��)该文档指定一个版本号。当执行更新�Ӟ��旧版本的文档�?span style="font-weight: 600; margin: 0px; border: 0px; padding: 0px;">.del文�g中被标记为删除，新版本的文档被烦(ch��)引到一个新�D�c(di��n)��旧版本的文档依然能匚w��查询�Q�但是会(x��)在结果中被过滤掉�?/p>

文档被烦(ch��)引或者更新后�Q�我们就可以执行查询操作�?ji��n)。让我们看看在Elasticsearch中是如何处理查询��h��的�?/p>

剖析��L��?(R)ead)

��L��作包�?部分内容�Q?/p>

查询阶段
提取阶段

我们来看下每个阶�D�|��如何工作的�?/p>

查询阶段

在这个阶�D�，协调节点�?x��)将查询��h��路由到烦(ch��)引的全部分片(��d��片或者其副本)上。每个分片独立执行查询，�q��ؓ(f��)查询�l�果创徏一个优先队列，以相��x��得分排�?我们��在本系列的后箋文章中讲�?。全部分片都��匹配文档的ID�?qi��ng)其相关性得分返回给协调节点。协调节点创��Z��个优先队列�ƈ对结果进行全局排序。会(x��)有很多文档匹配结果，但是�Q�默认情况下�Q�每个分片只发送前10个结果给协调节点�Q�协调节点�ؓ(f��)全部分片上的�q�些�l�果创徏优先队列�q�返回前10个作为hit�?/p>

提取阶段

当协调节点在生成的全局有序的文档列表中�Q��ؓ(f��)全部�l�果排好序后�Q�它?y��u)��向包含原始文档的分片发赯��求。全部分片填充文档信息�ƈ��其�q�回�l�协调节炏V�?/p>

下图展示�?ji��n)读��h��?qi��ng)其数据��?/p>

(点击攑֤�囑փ�)

如上所�q�ͼ�查询�l�果是按相关性排序的。接下来�Q�让我们看看相关性是如何定义的�?/p>

搜烦(ch��)相关�?/h2>
相关性是由搜索结果中Elasticsearch打给每个文档的得分决定的。默认��用的排序��法是tf/idf(词频/逆文档频�?。词频衡量了(ji��n)一个词��在文档中出现的�ơ数 (频率��高 == 相关性越�?�Q�逆文档频率衡量了(ji��n)词项在全部烦(ch��)引中出现的频率，是一个烦(ch��)引中文档��L��的百分比(频率��高 == 相关性越�?。最后的得分是tf-idf得分与其他因子比�?短语查询中的)词项接近度�?模糊查询中的)词项�怼�度等的组合�?/p>

接下来有什么？

�q�些CRUD操作由Elasticsearch内部的一些数据结构所支持�Q�这对于理解Elasticsearch的工作机刉��帔R��要。在接下来的�p�d��文章中，我将带大家走�q�类似的那些概念�q�告诉大家在使用Elasticsearch中有哪些坑�?/p>

Elasticsearch中的脑裂问题�?qi��ng)防��L��?/li>
事务日志
Lucene的段
��Z��么搜索时使用深层分页很危�?/li>
计算搜烦(ch��)相关性中困难�?qi��ng)权�?/li>
�q�发控制
��Z��么Elasticsearch是准实时�?/li>
如何��保��d��写的一致�?/li>

查看原文地址�Q?/span>http://insightdataengineering.com/blog/elasticsearch-crud

��马�?/a> 2016-08-13 11:15 发表评论

非常的好的协同过滤入门文�?转蝲)

Mon, 04 Jul 2016 07:48:00 GMT

from:http://www.ibm.com/developerworks/cn/web/1103_zhaoct_recommstudy1/

探烦(ch��)推荐引擎内部的秘密，�W?1 部分: 推荐引擎初探

“探烦(ch��)推荐引擎内部的秘�?#8221;�p�d��带领读者从��入��q��学习(f��n)探烦(ch��)推荐引擎的机�Ӟ��实现�Ҏ(gu��)��Q�其中还涉及(qi��ng)一些基本的优化�Ҏ(gu��)��Q�例如聚�c�d��分类的应用。同时在理论讲解的基��上，�q�会(x��)�l�合 Apache Mahout 介绍如何在大规模数据上实现各�U�推荐策略，�q�行�{�略优化�Q�构建高效的推荐引擎的方法。本文作��个系列的�W�一��文章，��深入介�l�推荐引擎的工作原理�Q�和其中涉及(qi��ng)的各�U�推荐机�Ӟ��以及(qi��ng)它们各自的优�~�点和适用场景�Q�帮助用��h��楚的�?ji��n)解和快速构建适合自己的推荐引擎�?/span>

信息发现

如今已经�q�入�?ji��n)一个数据爆炸的时代�Q�随着 Web 2.0 的发展， Web 已经变成数据分��n的��^収ͼ�那么�Q�如何让��Z��在�v量的数据中想要找��C��们需要的信息��变得越来越难�?/span>

在这��L(f��ng)��情�Ş下，搜烦(ch��)引擎�Q�Google�Q�Bing�Q�百度等�{�）(j��)成�ؓ(f��)大家快速找到目标信息的最好途径。在用户对自己需求相�Ҏ(gu��)��的时候，用搜索引擎很方便的通过关键字搜索很快的扑ֈ�自己需要的信息。但搜烦(ch��)引擎�q�不能完全满��用户对信息发现的需求，那是因�ؓ(f��)在很多情况下�Q�用户其实�ƈ不明��自��q��需要，或者他们的需求很隄��单的关键字来表述。又或者他们需要更加符合他们个人口呛_��喜好的结果，因此出现�?ji��n)推荐系�l�，与搜索引擎对应，大家也习(f��n)惯称它�ؓ(f��)推荐引擎�?/span>

随着推荐引擎的出玎ͼ�用户获取信息的方式从��单的目标明确的数据的搜烦(ch��)转换到更高��更符合�h们��用习(f��n)惯的信息发现�?/span>

如今�Q�随着推荐技术的不断发展�Q�推荐引擎已�l�在�?sh��)子商�?(E-commerce�Q�例�?Amazon�Q�当当网 ) 和一些基�?social 的社�?x��)化站�?( 包括音乐�Q�电(sh��)影和图书分��n�Q�例如豆瓣，Mtime �{?) 都取得很大的成功。这也进一步的说明�?ji��n)，W(xu��)eb2.0 环境下，在面�Ҏ(gu��)�v量的数据�Q�用户需要这�U�更加智能的�Q�更加了(ji��n)解他们需求，口味和喜好的信息发现机制�?/span>

回页�?/span>

推荐引擎

前面介绍�?ji��n)推荐引擎对于现在�?Web2.0 站点的重要意义，�q�一章我们将讲讲推荐引擎到底是怎么工作的。推荐引擎利用特�D�的信息�q��o(h��)技术，��不同的物品或内�Ҏ(gu��)��荐给可能对它们感兴趣的用戗��?/span>

�?1. 推荐引擎工作原理�?/span>

�?1 �l�出�?ji��n)推荐引擎的工作原理图，�q�里先将推荐引擎看作黑盒�Q�它接受的输入是推荐的数据源�Q�一般情况下�Q�推荐引擎所需要的数据源包括：(x��)

要推荐物品或内容的元数据�Q�例如关键字�Q�基因描�q�等�Q?/span>
�pȝ��用户的基本信息，例如性别�Q�年龄等
用户对物品或者信息的偏好�Q�根据应用本�w�的不同�Q�可能包括用户对物品的评分，用户查看物品的记录，用户的购买记录等。其实这些用��L(f��ng)��偏好信息可以分�ؓ(f��)两类�Q?/span>

昑ּ�的用户反馈：(x��)�q�类是用户在�|�站上自然浏览或者��用网站以外，昑ּ�的提供反馈信息，例如用户对物品的评分�Q�或者对物品的评论�?/span>
隐式的用户反馈：(x��)�q�类是用户在使用�|�站是��生的数据�Q�隐式的反应�?ji��n)用户对物品的喜好，例如用户购买了(ji��n)某物品�Q�用��h��看了(ji��n)某物品的信息�{�等�?/span>

昑ּ�的用户反馈能准确的反应用户对物品的真实喜好，但需要用户付出额外的代�h(hu��n)�Q�而隐式的用户行�ؓ(f��)�Q�通过一些分析和处理�Q�也能反映用��L(f��ng)��喜好�Q�只是数据不是很�_��Q�有些行为的分析存在较大的噪韟뀂但只要选择正确的行为特征，隐式的用户反馈也能得到很好的效果�Q�只是行为特征的选择可能在不同的应用中有很大的不同，例如在电(sh��)子商务的�|�站上，购买行�ؓ(f��)其实��是一个能很好表现用户喜好的隐式反馈�?/span>

推荐引擎�Ҏ(gu��)��不同的推荐机制可能用到数据源中的一部分�Q�然后根据这些数据，分析��Z��定的规则或者直接对用户对其他物品的喜好�q�行预测计算。这��h��荐引擎可以在用户�q�入的时候给他推荐他可能感兴��的物品�?/span>

推荐引擎的分�c?/span>

推荐引擎的分�c�d��以根据很多指标，下面我们一一介绍一下：(x��)

推荐引擎是不是�ؓ(f��)不同的用��h��荐不同的数据
�Ҏ(gu��)��q�个指标�Q�推荐引擎可以分为基于大众行为的推荐引擎和个性化推荐引擎
- �Ҏ(gu��)��大众行�ؓ(f��)的推荐引擎，�Ҏ(gu��)��个用户都�l�出同样的推荐，�q�些推荐可以是静(r��n)态的��q��l�管理员人工讑֮�的，或者基于系�l�所有用��L(f��ng)��反馈�l�计计算出的当下比较��行的物品�?/span>
- 个性化推荐引擎�Q�对不同的用��P��Ҏ(gu��)��他们的口呛_��喜好�l�出更加�_��的推荐，�q�时�Q�系�l�需要了(ji��n)解需推荐内容和用��L(f��ng)��特质�Q�或者基于社�?x��)化�|�络�Q�通过扑ֈ�与当前用��L(f��ng)��同喜好的用户�Q�实现推荐�?/span>
�q�是一个最基本的推荐引擎分�c�，其实大部分�h们讨论的推荐引擎都是��个性化的推荐引擎，因�ؓ(f��)从根本上��_(d��)��只有个性化的推荐引擎才是更加智能的信息发现�q�程�?/span>
�Ҏ(gu��)��推荐引擎的数据源
其实�q�里讲的是如何发现数据的相关性，因�ؓ(f��)大部分推荐引擎的工作原理�q�是��Z��物品或者用��L(f��ng)��怼�集进行推荐。那么参考图 1 �l�出的推荐系�l�原理图�Q�根据不同的数据源发现数据相��x��的�Ҏ(gu��)��可以分�ؓ(f��)以下几种�Q?/span>
- �Ҏ(gu��)��pȝ��用户的基本信息发现用��L(f��ng)��相关�E�度�Q�这�U�被�U�Cؓ(f��)��Z��人口�l�计学的推荐�Q�Demographic-based Recommendation�Q?/span>
- �Ҏ(gu��)��推荐物品或内容的元数据，发现物品或者内容的相关性，�q�种被称为基于内容的推荐�Q�Content-based Recommendation�Q?/span>
- �Ҏ(gu��)��用户对物品或者信息的偏好�Q�发现物品或者内�Ҏ(gu��)��w�的相关性，或者是发现用户的相��x��，�q�种被称为基于协同过滤的推荐�Q�Collaborative Filtering-based Recommendation�Q��?/span>
�Ҏ(gu��)��推荐模型的徏立方�?/span>
可以惌��在�v量物品和用户的系�l�中�Q�推荐引擎的计算量是相当大的�Q�要实现实时的推荐务必需要徏立一个推荐模型，关于推荐模型的徏立方式可以分��Z��下几�U�：(x��)
- ��Z��物品和用��h��w�的�Q�这�U�推荐引擎将每个用户和每个物品都当作独立的实体，预测每个用户对于每个物品的喜好程度，�q�些信息往往是用一个二�l�矩阉|��q�的。由于用��h��兴趣的物品远�q�小于�ȝ��品的数目�Q�这��L(f��ng)��模型��D��大量的数据空�|�，��x��们得到的二维矩阵往往是一个很大的�E�疏矩��c(di��n)��同时�ؓ(f��)�?ji��n)减��计��量�Q�我们可以对物品和用戯��行聚�c�，然后记录和计��一�cȝ��户对一�cȝ��品的喜好�E�度�Q�但�q�样的模型又�?x��)在推荐的准��性上有损失�?/span>
- ��Z��兌��规则的推荐（Rule-based Recommendation�Q�：(x��)兌��规则的挖掘已�l�是数据挖掘中的一个经典的问题�Q�主要是挖掘一些数据的依赖关系�Q�典型的场景��是“购物��问�?#8221;�Q�通过兌��规则的挖掘，我们可以扑ֈ�哪些物品�l�常被同时购乎ͼ�或者用戯��C��(ji��n)一些物品后通常�?x��)购买哪些其他的物品�Q�当我们挖掘��些关联规则之后，我们可以��Z��q�些规则�l�用戯��行推荐�?/span>
- ��Z��模型的推荐（Model-based Recommendation�Q�：(x��)�q�是一个典型的机器学习(f��n)的问题，可以��已有的用户喜好信息作�ؓ(f��)训练��h��Q�训�l�出一个预��用户喜好的模型�Q�这样以后用户在�q�入�pȝ��Q�可以基于此模型计算推荐。这�U�方法的问题在于如何��用户实时或者近期的喜好信息反馈�l�训�l�好的模型，从而提高推荐的准确度�?/span>

其实在现在的推荐�pȝ��中，很少有只使用�?ji��n)一个推荐策略的推荐引擎�Q�一般都是在不同的场景下使用不同的推荐策略从而达到最好的推荐效果�Q�例�?Amazon 的推荐，它将��Z��用户本��n历史购买数据的推荐，和基于用户当前浏览的物品的推荐，以及(qi��ng)��Z��大众喜好的当下比较流行的物品都在不同的区域推荐给用户�Q�让用户可以从全方位的推荐中扑ֈ�自己真正感兴��的物品�?/span>

深入推荐机制

�q�一章的��幅�Q�将详细介绍各个推荐机制的工作原理，它们的优�~�点以及(qi��ng)应用场景�?/span>

��Z��人口�l�计学的推荐

��Z��人口�l�计学的推荐机制�Q�Demographic-based Recommendation�Q�是一�U�最易于实现的推荐方法，它只是简单的�Ҏ(gu��)��pȝ��用户的基本信息发现用��L(f��ng)��相关�E�度�Q�然后将�怼�用户喜爱的其他物品推荐给当前用户�Q�图 2 �l�出�?ji��n)这�U�推荐的工作原理�?/span>

�?2. ��Z��人口�l�计学的推荐机制的工作原�?/span>

从图中可以很清楚的看刎ͼ�首先�Q�系�l�对每个用户都有一个用�?Profile 的徏模，其中包括用户的基本信息，例如用户的年龄，性别�{�等�Q�然后，�pȝ��?x��)根据用��L(f��ng)�� Profile 计算用户的相似度�Q�可以看到用�?A �?Profile 和用�?C 一��P��那么�pȝ��?x��)认为用�?A �?C 是相似用��P��在推荐引擎中�Q�可以称他们�?#8220;��d��”�Q�最后，��Z��“��d��”用户��的喜好推荐�l�当前用户一些物品，图中��用�?A 喜欢的物�?A 推荐�l�用�?C�?/span>

�q�种��Z��人口�l�计学的推荐机制的好处在于：(x��)

因�ؓ(f��)不��用当前用户对物品的喜好历史数据，所以对于新用户来讲没有“冷启动（Cold Start�Q?#8221;的问题�?/span>
�q�个�Ҏ(gu��)��不依赖于物品本��n的数据，所以这个方法在不同物品的领域都可以使用�Q�它是领域独立的�Q�domain-independent�Q��?/span>

那么�q�个�Ҏ(gu��)��的缺点和问题是什么呢�Q�这�U�基于用��L(f��ng)��基本信息对用戯��行分�cȝ��Ҏ(gu��)��q�于�_�糙�Q�尤其是对品呌��求较高的领域�Q�比如图书，�?sh��)�?ji��ng)和音乐等领域�Q�无法得到很好的推荐效果。可能在一些电(sh��)子商务的�|�站中，�q�个�Ҏ(gu��)��可以�l�出一些简单的推荐。另外一个局限是�Q�这个方法可能涉�?qi��ng)到一些与信息发现问题本��n无关却比较敏感的信息�Q�比如用��L(f��ng)��q�龄�{�，�q�些用户信息不是很好获取�?/span>

��Z��内容的推�?/span>

��Z��内容的推荐是在推荐引擎出��C��初应用最为广泛的推荐机制�Q�它的核�?j��)思想是根据推荐物品或内容的元数据�Q�发现物品或者内容的相关性，然后��Z��用户以往的喜好记录，推荐�l�用��L(f��ng)��似的物品。图 3 �l�出�?ji��n)基于内��?gu��)��荐的基本原理�?/span>

�?3. ��Z��内容推荐机制的基本原�?/span>

�?3 中给��Z��(ji��n)��Z��内容推荐的一个典型的例子�Q�电(sh��)影推荐系�l�，首先我们需要对�?sh��)�?ji��ng)的元数据有一个徏模，�q�里只简单的描述�?ji��n)一下电(sh��)��q��c�d��Q�然后通过�?sh��)�?ji��ng)的元数据发现�?sh��)�?ji��ng)间的�怼�度，因�ؓ(f��)�c�d��都是“爱情�Q�浪�?#8221;�?sh��)�?ji��ng) A �?C 被认为是�怼�的电(sh��)影（当然�Q�只�Ҏ(gu��)��c�d��是不够的�Q�要得到更好的推荐，我们�q�可以考虑�?sh��)�?ji��ng)的导演，演员�{�等�Q�；最后实现推荐，对于用户 A�Q�他喜欢看电(sh��)�?A�Q�那么系�l�就可以�l�他推荐�c�M��的电(sh��)�?C�?/span>

�q�种��Z��内容的推荐机制的好处在于它能很好的徏模用��L(f��ng)��口味�Q�能提供更加�_��的推荐。但它也存在以下几个问题�Q?/span>

需要对物品�q�行分析和徏模，推荐的质量依赖于对物品模型的完整和全面程度。在现在的应用中我们可以观察到关键词和标�{�（Tag�Q�被认�ؓ(f��)是描�q�物品元数据的一�U�简单有效的�Ҏ(gu��)��?/span>
物品�怼�度的分析仅仅依赖于物品本�w�的特征�Q�这里没有考虑人对物品的态度�?/span>
因�ؓ(f��)需要基于用户以往的喜好历史做出推荐，所以对于新用户�?#8220;冷启�?#8221;的问题�?/span>

虽然�q�个�Ҏ(gu��)��有很多不��_��问题�Q�但他还是成功的应用在一些电(sh��)影，音乐�Q�图书的�C�交站点�Q�有些站点还请专业的人员对物品进行基因编码，比如潘多拉，在一份报告中说道�Q�在潘多拉的推荐引擎中，每首歌有��过 100 个元数据特征�Q�包括歌曲的风格�Q�年份，演唱者等�{��?/span>

��Z��协同�q��o(h��)的推�?/span>

随着 Web2.0 的发展，W(xu��)eb 站点更加提倡用户参与和用户贡献�Q�因此基于协同过滤的推荐机制因运而生。它的原理很��单，��是�Ҏ(gu��)��用户对物品或者信息的偏好�Q�发现物品或者内�Ҏ(gu��)��w�的相关性，或者是发现用户的相��x��，然后再基于这些关联性进行推荐。基于协同过滤的推荐可以分�ؓ(f��)三个子类�Q�基于用��L(f��ng)��推荐�Q�User-based Recommendation�Q�，��Z��目的推荐（Item-based Recommendation�Q�和��Z��模型的推荐（Model-based Recommendation�Q�。下面我们一个一个详�l�的介绍着三种协同�q��o(h��)的推荐机制�?/span>

��Z��用户的协同过滤推�?/span>

��Z��用户的协同过滤推荐的基本原理是，�Ҏ(gu��)��所有用户对物品或者信息的偏好�Q�发��C��当前用户口味和偏好相似的“��d��”用户��，在一般的应用中是采用计算“K- ��d��”的算法；然后�Q�基于这 K 个邻居的历史偏好信息�Q��ؓ(f��)当前用户�q�行推荐。下�?4 �l�出�?ji��n)原理图�?/span>

�?4. ��Z��用户的协同过滤推荐机制的基本原理

上图�C�意出基于用��L(f��ng)��协同�q��o(h��)推荐机制的基本原理，假设用户 A 喜欢物品 A�Q�物�?C�Q�用�?B 喜欢物品 B�Q�用�?C 喜欢物品 A �Q�物�?C 和物�?D�Q�从�q�些用户的历史喜好信息中�Q�我们可以发现用�?A 和用�?C 的口呛_��偏好是比较类似的�Q�同时用�?C �q�喜�Ƣ物�?D�Q�那么我们可以推断用�?A 可能也喜�Ƣ物�?D�Q�因此可以将物品 D 推荐�l�用�?A�?/span>

��Z��用户的协同过滤推荐机制和��Z��人口�l�计学的推荐机制都是计算用户的相似度�Q��ƈ��Z��“��d��”用户��计��推荐，但它们所不同的是如何计算用户的相似度�Q�基于�h口统计学的机制只考虑用户本��n的特征，而基于用��L(f��ng)��协同�q��o(h��)机制可是在用��L(f��ng)��历史偏好的数据上计算用户的相似度�Q�它的基本假设是�Q�喜�Ƣ类似物品的用户可能有相同或者相似的口味和偏好�?/span>

��Z��目的协同过滤推�?/span>

��Z��目的协同过滤推荐的基本原理也是�c�M��的，只是说它使用所有用户对物品或者信息的偏好�Q�发现物品和物品之间的相似度�Q�然后根据用��L(f��ng)��历史偏好信息�Q�将�c�M��的物品推荐给用户�Q�图 5 很好的诠释了(ji��n)它的基本原理�?/span>

假设用户 A 喜欢物品 A 和物�?C�Q�用�?B 喜欢物品 A�Q�物�?B 和物�?C�Q�用�?C 喜欢物品 A�Q�从�q�些用户的历史喜好可以分析出物品 A 和物�?C 时比较类似的�Q�喜�Ƣ物�?A 的�h都喜�Ƣ物�?C�Q�基于这个数据可以推断用�?C 很有可能也喜�Ƣ物�?C�Q�所以系�l�会(x��)��物�?C 推荐�l�用�?C�?/span>

与上面讲的类��|��Z��目的协同过滤推荐和��Z��内容的推荐其实都是基于物品相似度预测推荐�Q�只是相似度计算的方法不一��P��前者是从用户历史的偏好推断�Q�而后者是��Z��物品本��n的属性特征信息�?/span>

�?5. ��Z��目的协同过滤推荐机制的基本原理

同时协同�q��o(h��)�Q�在��Z��用户和基于项目两个策略中应该如何选择呢？其实��Z��目的协同过滤推荐机制是 Amazon 在基于用��L(f��ng)��机制上改良的一�U�策略，因�ؓ(f��)在大部分�?Web 站点中，物品的个数是�q�远��于用户的数量的�Q�而且物品的个数和�怼�度相�Ҏ(gu��)��较稳定，同时��Z��目的机制比��Z��用户的实时性更好一些。但也不是所有的场景都是�q�样的情况，可以设想一下在一些新��L��荐系�l�中�Q�也许物品，也就是新�ȝ��个数可能大于用户的个敎ͼ�而且新闻的更新程度也有很快，所以它的�Ş似度依然不稳定。所以，其实可以看出�Q�推荐策略的选择其实和具体的应用场景有很大的关系�?/span>

��Z��模型的协同过滤推�?/span>

��Z��模型的协同过滤推荐就是基于样本的用户喜好信息�Q�训�l�一个推荐模型，然后�Ҏ(gu��)��实时的用户喜好的信息�q�行预测�Q�计��推荐�?/span>

��Z��协同�q��o(h��)的推荐机制是��C��应用最为广泛的推荐机制�Q�它有以下几个显著的优点�Q?/span>

它不需要对物品或者用戯��行严格的建模�Q�而且不要求物品的描述是机器可理解的，所以这�U�方法也是领域无关的�?/span>
�q�种�Ҏ(gu��)��计算出来的推荐是开攄��Q�可以共用他人的�l�验�Q�很好的支持用户发现潜在的兴��偏�?/span>

而它也存在以下几个问题：(x��)

�Ҏ(gu��)��的核�?j��)是��Z��历史数据�Q�所以对新物品和新用户都�?#8220;冷启�?#8221;的问题�?/span>
推荐的效果依赖于用户历史偏好数据的多��和准确性�?/span>
在大部分的实��C��Q�用户历史偏好是用稀疏矩阵进行存储的�Q�而稀疏矩阵上的计��有些明昄��问题�Q�包括可能少部分人的错误偏好�?x��)对推荐的准��度有很大的影响�{�等�?/span>
对于一些特�D�品味的用户不能�l�予很好的推荐�?/span>
�׃��以历史数据�ؓ(f��)基础�Q�抓取和建模用户的偏好后�Q�很难修�Ҏ(gu��)��者根据用��L(f��ng)��使用演变�Q�从而导致这个方法不够灵�z�R�?/span>

混合的推荐机�?/span>

在现行的 Web 站点上的推荐往往都不是单�U�只采用�?ji��n)某一�U�推荐的机制和策略，他们往往是将多个�Ҏ(gu��)��混合在一��P��从而达到更好的推荐效果。关于如何组合各个推荐机�Ӟ��q�里讲几�U�比较流行的�l�合�Ҏ(gu��)��?/span>

加权的�؜合（Weighted Hybridization�Q? 用线性公式（linear formula�Q�将几种不同的推荐按照一定权重组合�v来，具体权重的值需要在��试数据集上反复实验�Q�从而达到最好的推荐效果�?/span>
切换的�؜合（Switching Hybridization�Q�：(x��)前面也讲刎ͼ�其实对于不同的情况（数据量，�pȝ��q�行状况�Q�用户和物品的数目等�Q�，推荐�{�略可能有很大的不同�Q�那么切换的混合方式�Q�就是允许在不同的情况下�Q�选择最为合适的推荐机制计算推荐�?/span>
分区的�؜合（Mixed Hybridization�Q�：(x��)采用多种推荐机制�Q��ƈ��不同的推荐�l�果分不同的区显�C�给用户。其实，Amazon�Q�当当网�{�很多电(sh��)子商务网站都是采用这��L(f��ng)��方式�Q�用户可以得到很全面的推荐，也更�Ҏ(gu��)��扑ֈ�他们惌��的东�ѝ�?/span>
分层的�؜合（Meta-Level Hybridization�Q? 采用多种推荐机制�Q��ƈ��一个推荐机制的�l�果作�ؓ(f��)另一个的输入�Q�从而综合各个推荐机制的优缺点，得到更加准确的推荐�?/span>

推荐引擎的应�?/span>

介绍完推荐引擎的基本原理�Q�基本推荐机�Ӟ��下面��要分析几个有代表性的推荐引擎的应用，�q�里选择两个领域�Q�Amazon 作�ؓ(f��)�?sh��)子商务的代表，豆瓣作��?f��)�C�交�|�络的代表�?/span>

推荐在电(sh��)子商务中的应�?– Amazon

Amazon 作�ؓ(f��)推荐引擎的��E��，它已�l�将推荐的思想渗透在应用的各个角落。Amazon 推荐的核�?j��)是通过数据挖掘��法和比较用��L(f��ng)��消费偏好于其他用戯��行对比，借以预测用户可能感兴��的商品。对应于上面介绍的各�U�推荐机�Ӟ��Amazon 采用的是分区的�؜合的机制�Q��ƈ��不同的推荐�l�果分不同的区显�C�给用户�Q�图 6 和图 7 展示�?ji��n)用户�?Amazon 上能得到的推荐�?/span>

�?6. Amazon 的推荐机�?- 首页

�?7. Amazon 的推荐机�?- ��览物品

Amazon 利用可以记录的所有用户在站点上的行�ؓ(f��)�Q�根据不同数据的特点对它们进行处理，�q�分成不同区为用��h��送推荐：(x��)

今日推荐 (Today's Recommendation For You): 通常是根据用��L(f��ng)��q�期的历史购买或者查看记录，�q�结合时下流行的物品�l�出一个折中的推荐�?/span>
��C�品的推荐 (New For You): 采用�?ji��n)基于内容的推荐机�?(Content-based Recommendation)�Q�将一些新到物品推荐给用户。在�Ҏ(gu��)��选择上由于新物品没有大量的用户喜好信息，所以基于内容的推荐能很好的解决�q�个“冷启�?#8221;的问题�?/span>
捆绑销�?(Frequently Bought Together): 采用数据挖掘技术对用户的购买行��行分析，扑ֈ��l�常被一��h��同一个�h购买的物品集�Q�进行捆�l�销售，�q�是一�U�典型的��Z��目的协同过滤推荐机制�?/span>
别�h购买 / ��览的商�?(Customers Who Bought/See This Item Also Bought/See): �q�也是一个典型的��Z��目的协同过滤推荐的应用�Q�通过�C�会(x��)化机制用戯��更快更方便的扑ֈ�自己感兴��的物品�?/span>

值得一提的是，Amazon 在做推荐�Ӟ��设计和用户体验也做得特别独到�Q?/span>

Amazon 利用有它大量历史数据的优势，量化推荐原因�?/span>

��Z��C�会(x��)化的推荐�Q�Amazon �?x��)给你事实的数据�Q�让用户信服�Q�例如：(x��)购买此物品的用户癑ֈ�之多��也购买�?ji��n)那个物品�?/span>
��Z��物品本��n的推荐，Amazon 也会(x��)列出推荐的理由，例如�Q�因��Z��的购物框中有 ***�Q�或者因��Z��购买�q?***�Q�所以给你推荐类似的 ***�?/span>

另外�Q�Amazon 很多推荐是基于用��L(f��ng)�� profile 计算出来的，用户�?profile 中记录了(ji��n)用户�?Amazon 上的行�ؓ(f��)�Q�包括看�?ji��n)那些物品，��C��(ji��n)那些物品�Q�收藏夹�?wish list 里的物品�{�等�Q�当�?Amazon 里还集成�?ji��n)评分等其他的用户反馈的方式�Q�它们都�?profile 的一部分�Q�同�Ӟ��Amazon 提供�?ji��n)让用户自主��理自�?profile 的功能，通过�q�种方式用户可以更明��的告诉推荐引擎他的品味和意图是什么�?/span>

推荐在社交网站中的应�?– 豆瓣

豆瓣是国内做的比较成功的�C�交�|�站�Q�它以图书，�?sh��)�?ji��ng)�Q�音乐和同城�z�d��Z��?j��)，形成一个多元化的社交网�l��^収ͼ�自然推荐的功能是必不可少的，下面我们看看豆瓣是如何推荐的�?/span>

�?8 . 豆瓣的推荐机�?- 豆瓣�?sh��)�?ji��ng)

当你在豆瓣电(sh��)�׃��一些你看过的或是感兴趣的电(sh��)影加入你看过和想看的列表里，�q��ؓ(f��)它们做相应的评分�Q�这时豆瓣的推荐引擎已经拿到你的一些偏好信息，那么它将�l�你展示如图 8 的电(sh��)影推荐�?/span>

�?9 . 豆瓣的推荐机�?- ��Z��用户品味的推�?/span>

豆瓣的推荐是通过“豆瓣�?#8221;�Q��ؓ(f��)�?ji��n)让用户清楚�q�些推荐是如何来的，豆瓣�q�给��Z��(ji��n)“豆瓣�?#8221;的一个简要的介绍�?/span>

“你的个�h推荐是根据你的收藏和评�h(hu��n)自动得出的，每个人的推荐清单都不同。你的收藏和评�h(hu��n)��多�Q�豆瓣给你的推荐�?x��)越准确和丰富�?/span>
每天推荐的内容可能会(x��)有变化。随着豆瓣的长大，�l�你推荐的内容也�?x��)越来越准�?/span>”

�q�一点让我们可以清晰明了(ji��n)的知道，豆瓣必然是基于社�?x��)化的协同过滤的推荐�Q�这��L(f��ng)��戯��多，用户的反馈越多，那么推荐的效果会(x��)��来��准��?/span>

相对�?Amazon 的用戯��为模型，豆瓣�?sh��)�?ji��ng)的模型更加简单，��是“看过”�?#8220;想看”�Q�这也让他们的推荐更加专注于用户的品呻I��毕竟��C��西和看电(sh��)��q��动机�q�是有很大不同的�?/span>

另外�Q�豆瓣也有基于物品本�w�的推荐�Q�当你查看一些电(sh��)��q��详细信息的时候，他会(x��)�l�你推荐�?#8220;喜欢�q�个�?sh��)�?ji��ng)的�h也喜�Ƣ的�?sh��)�?ji��ng)”�Q?如图 10�Q�这是一个基于协同过滤的应用�?/span>

�?10 . 豆瓣的推荐机�?- ��Z��?sh��)�?ji��ng)本��n的推�?/span>

�ȝ��

在网�l�数据爆炸的�q�代�Q�如何让用户更快的找到想要的数据�Q�如何让用户发现自己潜在的兴��和需求，无论是对于电(sh��)子商务还是社�?x��)网�l�的应用都是臛_��重要的。推荐引擎的出现�Q��得这个问题越来越被大家关注。但对大多数人来�Ԍ��也许�q�在惊叹它�ؓ(f��)什么��L��能猜��C��到底惌��些什么。推荐引擎的��力在于你不清楚在这个推荐背后，引擎到底记录和推理了(ji��n)些什么�?/span>

通过�q�篇�l�D��性的文章�Q�你可以�?ji��n)解�Q�其实推荐引擎只是默默的记录和观察你的一举一动，然后再借由所有用户��生的��量数据分析和发现其中的规律�Q�进而慢慢的�?ji��n)解你，你的需求，你的�?f��n)惯�Q��ƈ默默的无声息的帮助你快速的解决你的问题�Q�找��C��惌��的东�ѝ�?/span>

其实�Q�回头想惻I��很多时候，推荐引擎比你更了(ji��n)解你自己�?/span>

通过�W�一��文章，�怿�大家�Ҏ(gu��)��荐引擎有一个清晰的�W�一印象�Q�本�p�d��的下一��文章将深入介绍��Z��协同�q��o(h��)的推荐策略。在��C��的推荐技术和��法中，最被大家广泛认可和采用的就是基于协同过滤的推荐�Ҏ(gu��)��。它以其�Ҏ(gu��)��模型��单，数据依赖性低�Q�数据方侉K��集，推荐效果较优�{�多个优�Ҏ(gu��)��为大众眼里的推荐��法“No.1”。本文将带你深入�?ji��n)解协同�q��o(h��)的秘密，�q�给出基�?Apache Mahout 的协同过滤算法的高效实现。Apache Mahout �?ASF 的一个较新的开源项目，它源�?Lucene�Q�构建在 Hadoop 之上�Q�关注�v量数据上的机器学�?f��n)经典算法的高效实现�?/span>

感谢大家�Ҏ(gu��)��p�d��的关注和支持�?/span>

��马�?/a> 2016-07-04 15:48 发表评论

亚洲一区二区在线视频,亚洲国产精品日韩专区AV,国产成A人亚洲精V品无码性色

大数据杂谈微译֠�|Elasticsearch 5.0新版本的�Ҏ(gu��)��与改进

�q�发

Translog(预写日志)

Lucene的段

接下来有什么？

剖析Elasticsearch集群�p�d���W�一��?Elasticsearch的存储模型和��d��操作

2 节点�c�d��

存储模型

剖析写操�?/h2>

创徏((C)reate)

更新((U)pdate)和删�?(D)elete)

剖析��L���?(R)ead)

查询阶段

提取阶段

接下来有什么？

非常的好的协同过滤入门文�?转蝲)

剖析Elasticsearch集群�p�d��W�一��?Elasticsearch的存储模型和��d��操作

剖析��L��?(R)ead)