Cassandra �?一个分散的非结构化存储�pȝ��

CONAN — Sun, 18 Jul 2010 07:57:00 GMT

本文��译自Facebook员工在LADIS大会上发布的论文.Cassandra – A Decentralized Structured Storage System
�q�篇论文�?两位作者详�l�介�l�了 Cassandra的系�l�架�?它的设计初衷,设计应用时��用到的相��x��?以及设计/实现/使用�q�程中得到的�l�验教训.

Cassandra – 一个分散的非结构化存储�pȝ��
By Avinash Lakshman Facebook ,Prashant Malik Facebook; Translated ByJametong

概要

Cassandra 是一个分布式的存储系�l?可用来管理分布在大量廉�h服务器上的巨量结构化数据,�q�同时提供没有单�Ҏ��障的高可用服�?Cassandra的设计目的是�q�行在由几百个节�?可能分布在多个不同的数据中心)�l�成的基��设施(infrastructure)�?当节点达到这个规模时,大大��小的组件出现故障就�? 能经常发生了.Cassandra在管理持久状态时面�͘q�些故障,�q�种情况也驱动��Y件系�l�的可靠�?reliability)与可伸羃�? (scalability)会依赖于Cassandra的服�?虽然大部分情�?Cassandra看上��d��一个数据库�pȝ��, 也与数据库系�l�共享大量的设计与实现手�D?但是Cassandra�q�不支持完整的关�p�L��据模�?相反,它提供了一个简单数据模型的客户�?支持�Ҏ��据布局与数据格式的动态控�?我们设计Cassandra的初��h��,可以�q�行在廉��L��件上,�q�能在不牺牲��L��率的情况下实现高的写吞吐�?

1. ��D��

Facebook�l�护着世界上最大的�C�交�|�络�q�_��,利用分布在世界各地的大量数据中心的成千上万台服务�?��Z��? 的用��h��供服�?Facebook�q�_��有严格的业务要求,包含性能、可靠性、效率以及高度的可�׾~�性以支持�q�_��的持�l�增�?在一个包含成千上万的�l��g的基 ��设施上处理故障是我们的标准运作模�?在�Q何时�?随时都可能出现相当数量的服务器或�|�络�l��g故障.�q�样,软�g�pȝ��在构建时��需要将故障当作一�U�常态�? 不是异常来处�?��Z��满��上面描述的这些可靠性与可�׾~��?Facebook开发了Cassandra�pȝ��.
��Z��实现可�׾~�性与可靠 �?Cassandra�l�合了多��众所周知的技�?我们设计Cassandra的最初目的是解决收�g��搜索的存储需�?在Facebook,�q�意味着�q�个 �pȝ��需要能够处理非常大的写吞吐�?每天几十亿的写请�?随着用户数的规模而增�?�׃��我们是通过在地理上分布的数据中心对用户�q�行服务�?因此支持跨越多个数据中心的数据复制对于降低搜索�g时就非常关键�?当我们在2008�q?月发布收件箱搜烦��目�?我们�?亿的用户,现在我们差不多有2.5亿的�? �?Cassandra一直保持了其对业务的承�?目前,Facebook内部已经有多个服务部�|�了Cassandra作�ؓ其后端存储系�l?
本文的结构如�?�W?节讨论相关研�I?其中的部分研�I�对我们的设计有很大影响.�W?节介�l�详�l�的数据模型.�W?节简要介�l�客��L��API.�W?节介�l�系�l�设计以及Cassandra中应用到的分布式��法.�W?节介�l�我们如何��用Cassandra部��vFacebook�q�_��的一个应�?

2. 相关研究

对于��Z��性能、可用性与数据持久性对数据�q�行分布�Q�文件系�l�与数据库社区已�l�进行了�q�泛的研�I?与仅支持扁��^ 命名�I�间(namespace)的点对点(P2P)存储�pȝ��相比,分布式文件系�l�通常支持层次�?hierarchical)的命名空�?�? Ficus[14]与Coda[16]�c�M��的系�l�都是通过牺牲一致性来复制文�g以实现高可用(high availability).通常使用特别的冲�H�解�?conflict resolution)�E�序来管理更新冲�H?update conflict). Farsite[2]是一个没有��用�Q何中心服务器的分布式文�g�pȝ��. Farsite使用复制来实现高可用性与可�׾~��?Google文�g�pȝ��(GFS)[9]是另一个分布式文�g�pȝ��,用来存储Google内部应用的各�U�状态数�?GFS设计比较��?用一��C��服务器存储所有的元数�?metadata),数据拆分成块(chunk)存储在多个块服务�?chunk server)�?不过,目前Google已经使用Chubby[3]抽象层�ؓGFS的主服务器做了容错处�?fault tolerant).Bayou[18]是一个分布式的关�p�L��据库�pȝ��,它支持断开操作(个�h理解为网�l�断开以后的操�?�q�提供最�l�的数据一致�? (eventual data consistency).在这些系�l�中,Bayou、Coda与Ficus允许断开操作�Q��ƈ且在遇到�c�M��与网�l�断开与停机时能够做到自动复原.�q�些�pȝ�� 在冲�H�解决程序上存在差异.例如,Coda与Ficus执行�pȝ��U�别的冲�H�解�?而Bayou允许应用�U�别的冲�H�解�?但所有这些都保证最�l�一致�? (eventual consistency).与这些系�l�类�?即��在网�l�段开的时�?Dynamo[6]也允许进行读写操�?�q��用不同的冲突解决机制(部分客户端驱�? 来解��x��新冲�H?传统的基于复制的关系数据库系�l�重点在保证复制数据的强一致�?strong consistency).虽然��Z��致性�ؓ应用写程序提供了一个方便的�~�程模型,但是,�q�些�pȝ��在�׾~�性与可用性方面却受到了限�?因�ؓ�q�些�pȝ��提供��Z�� 致性的保证,所以在�|�络分开�?它们��无法进行处�?
Dynamo[6]是一个Amazon开发的存储�pȝ��,Amazon用它来存储检索用��L��? 物�R.Dynamo利用��Z��Gossip的会员算法来�l�护每个节点上所有其他节点的信息.可以认�ؓDynamo是一个只支持一跌��\��p��?one-hop request routing)的结构化覆盖�?structured overlay).Dynamo使用一个向量时�?vector lock)概要来发现更新冲�H?但偏爱客��L��的冲�H�解��x��?��Z��理向量旉��?vector timestamp),Dynamo中的写操作同时也需要执行一�ơ读操作.在一个需要处理非常大的写吞吐量的�pȝ��?�q�可能会成�ؓ瓉��. Bigtable[4]既提供了�l�构化也支持数据的分布式,不过它依赖于一个分布式的文件系�l�来保证数据的持久化.

3. 数据模型

Cassandra中的表是一个按照主键烦引的分布式多�l�图.它的值是一个高度结构化的对�?表中的记录键是一个没有大��限制的字符�?虽然它通常都只�?6-36个字节的长度.无论需要读写多��列,单一记录键的每个副本的每�ơ操作都是一个原子操�?多个列可以组合在一起�Ş成一个称为column family的列的集�?�q�一点与Bigtable[4]�pȝ��非常�怼�.Cassandra提供两种�c�d��的column family,��单的column family与超�U�的column family.可以��超�U�column family惌��成column family里面嵌入column family.�q�一�?应用�q�可以指定超�U�column family或者简单column family里面的列的排序顺�?�pȝ��允许按时间或者名�U�对列进行排�?按照旉��对列�q�行排序可以被类��g��收�g��搜索这��L��应用使用,因�ؓ它们的结果始�l? 需要按照时间顺序进行展�C?column family中的每个列都需要通过规范column family : column来进行访�?每个��column family中的列都通过规范column family : super column : column来进行访�?��节6.1�l�出了一个展�C��U�column family抽象能力的非常好的例�?通常,应用都会使用一个独占的Cassandra集群,�q�将它们当作服务的一部分�q�行��理.�? �?Cassandra�pȝ��支持多表的概�?在部�|�时每个概要中都只能有一个表.

4. API

Cassandra 的API�׃��面三�U�方法组�?

insert(table, key, rowMutation)
get(table, key, columnName)
delete(table, key, columnName) 列名可以是column family里面的一个特定列,或column family,或超�U�column family,或超�U�列里面的一个列

5. �pȝ��架构
一个需要在生��环境�q��{的存储系�l�的架构是很复杂�?除了真实的数据持久化�l��g�?�q�个�pȝ��q�需要包含以下特�?�? 伸羃性与强大负蝲均衡解决�Ҏ��、会员与故障��、故障恢复、副本同步、超负荷处理、状态�{�U�R��ƈ发与��d��调度、请求编�l�、请求�\由、系�l�监控与报警以及�? �|�管�?详细描述�q�里的每一个解��x��案超��Z��本论文的范围,我们��集中介�l�Cassandra使用的核心的分布式系�l�技�?分区、复制、会员、故障处理以及�׾~��?处理��d��h��需要所有这些模块的协同处理.通常,一个键的请求可能被路由到Cassandra集群的�Q何一个节点去处理.�q�个节点会确定这个特定的键的副本.对于写操作来�?�pȝ��会将��h��路由到副本上,�q�且�{�待仲裁数量的副本以��认写操作完�?对于��L��作来�?��Z��客户端要求的一致性保�?�pȝ�� 要么��请求�\由到最�q�的副本,要么��请求�\由到所有的副本�q�等待达��C��裁数量的响应.

5.1 分区.

�? 量扩展的能力是我们设计Cassandra时考虑的一个关键特�?它要求做到在集群中的一�l�节�?Node)之间动态的�Ҏ��据进行分 �?Cassandra使用一致性散�?consistent hash[11])技术在整个集群上对数据�q�行分区,但是使用一�U�保证顺�?order preserving)的散列函数来实现.在一致性散列中,散列函数的输出结果区间可以看作是一个封闭的圆�Ş�I�间或�?#8221;�?#8221;(例如,最大的散列值回�l�到最 ��的散列�?.为系�l�中的每个节点分配这个空间上的一个随机�?代表它在�q�个环上的位�|?每个数据��w��会根据它的键被指�z��一个节�?通过对这个数据项�? 键做散列计算,获得它在环上的位�|?然后按照��时针找到比它的位置大的�W�一个节�?�q�个节点��p��认�ؓ是这个键的协调器.应用指定�q�个 �?Cassandra利用它来对请求做路由.�q�样,每个节点都会负责环上的一个区�?节点与它在环上的前一个节�?逆时�?之间的区�?一致性散列的�? 要优势是增加或删除节点只会媄响到它的�q�邻,其他的节炚w��不会受媄�?基本的一致性散列算法还面��一些挑�?首先,在环上随机的为每个节�Ҏ��定位�|�可能导致数据与负蝲的分布不均衡.其次,基本的一致性算法会�Ҏ��节点之间性能的异质�?差异).解决�q�个问题一般有两种�Ҏ��:一�U�方法是在环上�ؓ节点指定多个�? �|?Dynamo采用的方�?,另一�U�方法是分析环上的负载信�?�q�移动负载较低的节点的位�|�以�~�解负蝲�q�重的节�?引文[17]�Ҏ��有详�l�描 �q?Cassandra选择了后�?因�ؓ使用它可以简化设计与实现,�q�且可以让负载均衡的选择更加��h��定�?

5.2 复制

Cassandra使用复制来实现高可用性与持久�?每个数据��w��会被复制到N��C��?N是通过参数”per- instance”配置的复制因�?每个�?k)都被指派�l�一个协调节�?上一节介�l�的).由协调节点负责复制落在这个节点范围的数据��的复制.除了��本节点范围内的数据存储到本地外,协调器需要将�q�些键复制到环上的其他N-1个节�?关于如何复制数据,Cassandra为客��L��提供了多个选项.�? �?Cassandra�q�提供了多种不同的复制策�?例如”机架不可�?#8221;(rack unaware)�?#8221;机架可知”(rack aware)(同一个数据中心内)�?#8221;数据中心可知”(data-center aware).应用选择的复制策略决定了副本的数�?使用”机架可知”�?#8221;数据中心可知”复制�{�略时复制的��法要稍微复杂一�?Cassandra使用一个称为Zookeeper[13]的系�l�在�q�些节点中选择一个引��D�?leader).所有节点在加入集群旉��需要与此引��D��联�p?�q�由引导者告知它们负责哪个环上哪个范围的副本,引导者还需保持协调一致的努力来保持不�?以确保没有哪个节点负责环上的��过N-1个范�?关于一个节点负责的范围的元数据 (metadata)信息都会在每个节点做本地�~�存,�q�在Zookeeper内做定w��处理,�q�样当一个节点崩溃�ƈ�q�回的时候就可以知道它到底负责哪个范 �?借用Dynamo的措�?我们认�ؓ负责一个给定范围的节点是这个范围的”优选清�?#8221;.

5.1节已�l�介�l�了每个节点都知悉系�l�中的所有其他节�?以及它们各自负责的范�?通过攑֮�5.2节介�l�的仲裁�?quorum)的要�?即��在出现节�Ҏ��障与�|�络分区的情况下,Cassandra也可以保证持久�?在断��c��冷却故障、网�l�故障或自然灑֮��Ӟ��数据中心也会发生故障.可以配置Cassandra使得每条记录都被复制到多个不同的数据中心. 实际�?可以�q�样构徏一个键的偏好列�?以实现键的存储节点分布在多个数据中心.�q�些数据中心都是通过高速网�l�进行互�?即��整个数据中心出现故障,�q�种跨越多个数据中心的复制架构允许我们做��C��宕机.

5.3 会员

Cassandra中的�? ��会员是��Z��Scuttlebutt[19]�?一个非帔R��效的反熵闲话(anti-entropy Gossip)机制. Scuttlebutt的突出的特点是它非常高效的CPU利用率以及非帔R��效的Gossip通道利用�?在Cassandra�?�pȝ��Gossip不止�? 来管理会员信�?也用来传输其他系�l�相关的控制状�?

5.3.1 故障��?/strong>

故障��是�q? 样一�U�机�?通过它一个节点在本地��可以确定系�l�中的�Q一其他节点是活着�q�是��M��.在Cassandra�?故障��还被用来避免在多个操作中与不可达节点的�q�行通讯.Cassandra使用的是Φ Accrual故障��器[8]的一个改�q�版�? Accrual故障��器的设计思�\�?故障��模块�ƈ不是产生一个布��值来标记一个节�Ҏ��zȝ��q�是��M��.相反,故障��模块�ؓ每个被监控节点��生一个代表其怀疑��别的数�?此��D��定义�?#934;.其基本的思�\是用Φ的值来表示一个范�?可以动态对其进行调整以反映监控节点上的�|�络与负载情�?
Φ有以�? 几种涵义:�l�定部分阈�?#934;,�q�假定当Φ=1时我们就军_��怀疑一个节点A,我们犯错�?例如,�q�个军_��在将来可能由于心��x��收�g�q�而被证明是错误的)的概�? �?0%.Φ=2时出错的概率大约�?%,Φ=3大约�?.1%,�{�等.�pȝ��中的每个节点都会�l�护一个滑动窗�?来表�C�集��中其他节点的gossip信息的到��N��隔时�?��定了这些到��N��隔时间的分布�?��可以计��出Φ的��g��.虽然原论文认��个分布近��g��高斯分布(Gaussian distribution),�׃��gossip通道的本性以及他对�g�?latency)的媄�?我们认�ؓ它与指数分布(Exponential Distribution)更加�怼�.据我们所�?我们实现的Accrual故障��在��Z��Gossip的配�|�中�q�属首创. Accrual故障��器在准��性与速度上表现都非常�? 它们也能很好的适应不同的网�l�环境或服务器负载环�?

5.4 引导�E�序

当一个节点第一�ơ启动的时�?它会随机的选择一个��o�?token)作�ؓ它在环上的位�|?��Z��定w��的需�?映射关系会被持久化到本地��盘以及Zookeeper�?接着令牌信息会被传播到整个集��?我们��是通过它来知道集群中的所有节点以及它们在环上的位�|�的.�? �q�它,��M��一个节炚w��可以��一个键(key)的请求�\由到集群中的合适的节点.在引��D��E�中,当一个新的节炚w��要加入集��时,它需要读取它的配�|�文�?�? �|�文件中包含集群中的几个联络点名�?我们��这些联�l�点�U�Cؓ集群的种�?seed).�U�子也可以来自一个类��g��Zookeeper的配�|�服�? (configuration service).
在Facebook的环境中,节点停机旉��(�׃��故障或维护�Q�?通常都很短暂,但有时也会�g 长一�D�|��?故障可能有多�U��Ş�?如磁盘故障、CPU损坏�{?节点停机很少不表�C�永�q�离开(删除节点),因此,不该��D��分区指派的重新��^衡或不可辑։�本的修复.�c�M��?手工错误可能会导致意外地启动新的Cassandra节点.��Z��避免出现�q�种效果,所有消息中都包含了每个Cassandra实例集群�? �U?如果配置中的手工错误��D��一个节点尝试加入一个错误的Cassandra实例,��可以根据集��名�U�来��L��?�׃��上述原因,使用一�U�明��的机制来往 Cassandra实例中添加或从中删除节点或许更加合�?��理员��用命令行(command line)工具或者浏览器登陆到Cassandra的节�?提出一个会员变�?节点变更)来加入或��d��集群.

5.5 集群的扩�?/strong>

当有一个新节点加入�pȝ��?它会被分配一个��o�?�q�样��可以缓解负载过重的节点的负�?�q�样��D��的结果是,�q? 个新的节点会分担部分先前由其他节点负责的范围.Cassandra的引导算法可��q��l�中的�Q何其他节炚w��过命��o行工��h��Cassandra的网�l��A表盘 (web dashboard)来启�?攑ּ��q�部分数据的节点通过内核到内核的拯��技术将数据拯��到新的节�?我们的运�l�经验显�C?从单个节点传输的速率可以辑ֈ� 40MB/s.我们�q�在努力对它�q�行改善,通过让多个副本来参与�q�行化引��g��?�c�M��于Bittorrent技�?

5.6 本地持久�?/strong>

Cassandra�pȝ��要依赖于本地文�g�pȝ��做数据的持久�?�q�些数据是以一�U�易于高效检索的格式存储在磁盘上.通常,一�ơ写操作会涉及提交日�?Commit Log,��Z��数据耐用性与可恢复�?写入,以及一�ơ内存数据结构的更新.只有在写入提交日志成功返回后,才会执行内存数据�l�构的写入操�?在每��C��Z��, 我们都单独地分配了一块磁盘存放提交日�?�׃��提交日志地所有写入操作都是连�l�的(sequential),所以我们可以最大程度的利用��盘吞吐�?当内存数据结构的大小(�Ҏ��数据量大��与对象数量计算得出)��过一定的阈�?它就会将自��n转储到磁�?�q�个写操作会机器配备大量的廉��L��盘的某一个上执行.所有到��盘的写操作都是��序�?随着旉��的推�U?��盘上就会存在多个这��L��文�g,后台会有一个合�q�进�E?merge process)��这些文件合�q�成一个文�?�q�个�q�程与Bigtable�pȝ��中的压羃�q�程(compact process)非常�c�M��.
通常,一个读操作在检索磁盘文件之前会先查询这个内存数据结�?��索磁盘文件是按照先新后旧的方式进行的.当发生磁盘检索时,我们可能需要查看多个磁盘文�?��Z�� 避免查看不包含相应键(key)的文�?我们使用了布隆过滤器(bloom filter),它对文�g中的键进行了汇�?它同时存在于每一个数据文件中�q�常��d��内存�?当需要检索某个键�?会先查阅此布隆过滤器以确认给定的文�g�? 否确实包含此�?column family中的一个键可以包含大量的列.当检索的列距��键较远时还需要利用一些特�D�的索引.��Z��避免在磁盘上扫描每一�?我们�l�护了一份列索引来帮助我们直接定位到��盘上的对应�?�׃��指定键的列已�l�被序列化�ƈ写出到磁�?我们是按照每个块(chunk)256K的范围创建烦引的.块的范围大小是可配置 �?不过,我们发现256K的大��在我们的生产工作负载下�q�作良好.

5.7 实现�l�节

�? 台机器上的Cassandra�q�程主要�׃��下模块组�?分区模块、集��会员管理模块、故障检��模块与存储引擎模块.所有这些模块都依赖于一个事仉��动的�? 层模�?它是按照SEDA[20]架构设计�?��消息处理管道与��d��道切分成了多个阶段.所有这些模块都是完全利用Java实现.集群会员模块与故障检 ��模块都建立在��用非堵塞IO的网�l�层�?所有的�pȝ��控制信息都依赖于��Z��UDP协议的消息传�?而复制与��h��路由�{�应用相关的消息则依赖于TCP协议�? �?��h��路由模块的实��C��用了一个固定的状态机.当集��的��M��节点收到一个读/写请求时,状态机都会在以下几�U�状态之间切�? (i)定位拥有�q�个键的数据的节�?ii)��请求�\由到此节点�ƈ�{�待响应到达(iii)如果�{�复没有在配�|�的��时旉��内到�?��将此请求置为失败�ƈ�q�回�l? 客户�?iv)�Ҏ��旉��戳算出最新的�{�复(v)��Z�Q何数据不是最新的副本的安排数据修�?��Z��赯��,详细的故障情冉|��们就不在此讨��Z��.�q�个�pȝ��的复制模式可以配�|��ؓ同步�?synchronous write)也可以配�|��ؓ异步�?asynchronous write).对于特定的需要高吞吐量的�pȝ��,我们会选择依赖于异步复�?�q�时,�pȝ��接收到的写操作远�q�超�q�读操作.对于使用同步的例�?在返回给用户�? 前我们会�{�待辑ֈ�仲裁的响应数�?
在�Q何日志文件系�l�中,都需要有一个机制来清理提交日志��?commit log entry), 在Cassandra�?我们使用一�U�滚动的提交日志,在一个旧的提交日志超�q�一个特定的可配�|�大��后,��推��Z��个新的提交日�?在我们的生��环境�?�? 们发�?28M的滚动提交日志运作良�? 每个提交日志都有一个头信息,基本上是一个大��固定的位向�?其大��通常��过一个系�l�可能处理的column family的个�?在我们的实现�?对于每个column family,我们都会生成一个内存数据结构以及一个数据文�?每当一个特定的column family的内存数据结构�{储到��盘,我们都会在提交日志中记录它对应的�?说明�q�个column family已经被成功地持久化到��盘.�q�表明这部分信息已经提交�?每个提交日志都有一份对应的位向�?�q�些位向量的信息同时也在内存中进行维�?每当发生提交日志滚动的时�?它的位向�?以及它之前滚动的提交日志的位向量都会被检查一�?如果��定所有的数据都已�l�被成功地持久化到磁�?��删除这些提�? 日志.到提交日志的写操作可以是普通模�?normal mode)也可以是快速同步模�?fast sync mode).在快速同步模式下,到提交日志的写操作会被缓�?buffered).�q�表明在机器崩溃时可能会出现潜在的数据丢�?在这�U�模式下,内存数据 �l�构转储到磁盘也会被�~�冲.传统的数据库通常都不会被设计用来处理特别高的写入吞吐�?Cassandra��所有的写入操作都�{换成��序写操作以最大限�? 地利用磁盘的写入吞吐�?�׃��转储到磁盘的文�g不再会被修改,从而在��d��它们的时候也不需要持有�Q何锁.Cassandra的服务实例的��d��操作实际上都是无锁操�?所�?我们�q�不需要应付基于B-Tree的数据库实现中存在的�q�发问题.
Cassandra�pȝ��通过主键来来索引所有数�?��盘上的数据文�g被分解成一�p�d��的块.每个块内最多包�?28个键,�q��过一个块索引来区�?块烦引抓取块内的键的相对偏移量以及其数据大小.当内存数据结构被�? 储到��盘�?�pȝ��会�ؓ其生成一个烦�?它的偏移量会被写当作索引写到��盘�?内存中也会维护一份这个烦引以提供快速访�?一个典型的��L��作��L��会先��索内存数据结�?如果扑ֈ��将数据�q�回�l�应用程�?因�ؓ内存数据�l�构中包含�Q何键的最新数�?如果没有扑ֈ�,那么我们��需要对所有磁盘数据文件按照时间逆序�? 执行��盘IO.�׃��L��L��最新的数据,我们��先查阅最新的文�g,一旦找到数据就�q�回.随着旉��的推�U?��盘上的数据文�g数量会出现增�?我们会运行一�? 非常�c�M��于Bigtable�pȝ��的压�~�进�E?通过它将多个文�g压羃成一个文�?基本上是对很多排序好的数据文件进行合�q�排�?�pȝ��L��会压�~�大��彼此接�q? 的文�?例如,永远不会出现一�?00GB的文件与另一个小�?0GB的文件进行合�q�的情�Ş.每隔一�D�|��?��׃��q�行一个主压羃�E�序来将所有相关的数据�? 件压�~�成一个大文�g.�q�个压羃�q�程是一个磁盘IO密集型的操作.需要对此做大量的优化以做到不媄响后�l�的读请�?

6. 实践�l�验

在设计、实��C��及维护Cassandra的过�E�中,我们�U�篏了不��有益的�l�验,也获得了许多�l�验教训.一个非�? 基本的经验教训是,在没有理解应用的使用效果之前不要增加��M��新特�?最成问题的情况不仅仅来自节点崩溃与�|�络分区.我们��在此分享几个有��的场景.

�? 发布收�g��搜索应用之�?我们必须先�ؓ��过1亿用��L��7TB的收件箱数据创徏索引,接着��它们存储到我们的MySQL[1]基础�l�构�?然后再将它们加蝲到Cassandra�pȝ��?整个处理�q�程涉及到在MySQL数据文�g上运行Map/Reduce[7]��d��,为它们创建烦�?�q�按照逆序索引的方式将�? 们存储到Cassandra�?实际�?M/R�q�程是作为Cassandra的客��L��q�行�?我们为M/R�q�程开放了后端通道,使它们可以按用户汇总逆序索引,�q�将序列化后的数据传输给Cassandra实例,以节省序列化/反序列化的开销.�q�样,Cassandra实例的瓶颈就只剩下网�l�带宽了.

�? 部分应用都是只需要每个键的每个副本的原子操作.不过,�q�是有部分应用需要交易支�?它的主要目的是维护辅助烦�?大部分有着多年RDBMS相关开发经�? 的开发�h员都认�ؓ�q�个�Ҏ��很有用.我们正在研究开放此�c�d��子操作的机制.

我们��试实现了多�U�故障检��器,包含[15]与[5]中所描述的故障检��器.我们得到的经验是,随着集群规模的增�?��到故障的时间也会出现增�?��出了我们的接受限度.在一个特定的包含100个节点的实验�?�� 一个故障节点竟然耗费大约2分钟的时�?在我们的环境�?�q�实际上是不可接受的.利用accrual故障��器�q�设�|�一个稍显保守的PHI(Φ)�?�? �|��ؓ5),在上面的实验中检��到故障的��^均时间大�U��ؓ15�U?

不要对监控想当然.Cassandra�pȝ��与Ganglia[12]做了很好的集�?Ganglia是一个分布式的性能监控工具.我们向Ganglia开放了各种�pȝ��U�别的指�?在Cassandra部��v到我们的生��环境�? �q�一点帮助我们更��q��理解了这个系�l�的行�ؓ.��盘会无�~�无故地出现故障.当磁盘出现故障时,引导��法中有多个异常分支(hook)来修复这个节�?但是, �q�实际上是一个管理操�?

虽然Cassandra是一个完全分散地�pȝ��,我们了解�?��Z��使一些分布式�Ҏ��的实现更加可控,支持一定数量的协调操作�q�是非常必要�?我们打算寚w��分关键特性��用Zookeeper抽象,�q�些�Ҏ��实际上与��用Cassandra作�ؓ存储引擎的应用关�p�M��?

6.1 Facebook的收件箱搜烦

对于收�g��搜�?我们为每个用��L��护了一份所有消息的索引,�q�些消息包含用户作�ؓ发送�? 的消息也包含其作为接收者的消息.目前启用了两�U�类型的索引(a)术语搜烦(b)互动搜烦,�Ҏ��与此用户�l�定互动的�h的名�U�返回用户发送给此�h以及从此�? 处接收的所有消�?�q�个概要(schema)包含两个column family,对于查询(a),用user id作�ؓ�?key),以构成消息的单词作�ؓ��?super column).对于查询(b),user id仍然是键(key),接收者的id都是super column.对于�q�些super column中的每一�?单个消息的识别符都是�?��Z��实现快速检�?Cassandra为数据的��~�存提供了特定的钩子(hook)代码.例如,当用 ��L��d��搜烦栏时,会有一条异步消息发送给Cassandra集群,再通过用户索引在高速缓�?buffer cache)中准备好该用��L��数据.�q�样,当实际的搜烦查询��h��到达�?搜烦�l�果很可能已�l�在内存中了.目前,�q�个�pȝ��?50个节点的集群上存储了大约 50多TB的数�?�q�些节点分布在美国东西�v岸的多个数据中心.下面展示了部分生长环境中��量出来的读性能数据.

�? 时统�?/th> 搜烦交互术语

最��?/td> 7.69ms 7.78ms

�? �?/td> 15.69ms 18.27ms

最�?/td> 26.13ms 44.41ms

7. �l�论

我们已经建立、实现�ƈ�l�护的存储系�l�，可以提供可�׾~�性、高性能与广泛的适用�?我们的经验表 �?Cassandra可以在提供低延时(low latency)的同时提高非帔R��的更新吞吐量(thoughput).后期的工作涉及增加压�~�功能、跨��多个键的原子操作支持以及辅助烦引支�?

8. 致谢

Cassandra极大地受益与Facebook公司内部许多同事的反�?另外�q�要特别感谢Karthik Ranganathan,他对MySQL中的所有数据徏立了索引�q�将�q�些数据�q�移到Cassandra中作为我们第一份正式部�|?另外�q�要感谢来自 EPFL的Dan Dumitriu,感谢他对我们提出的宝贵徏�?关于[19]与[8]).

9. 参考文�?/strong>

[1] MySQL AB. Mysql.
[2] Atul Adya, William J. Bolosky, Miguel Castro, Gerald Cermak, Ronnie Chaiken, John R. Douceur, Jon Howell, Jacob R. Lorch, Marvin Theimer, and Roger P. Wattenhofer. Farsite: Federated, available, and reliable storage for an incompletely trusted environment. In In Proceedings of the 5th Symposium on Operating Systems Design and Implementation (OSDI, pages 1-14, 2002.
[3] Mike Burrows. The chubby lock service for loosely-coupled distributed systems. In OSDI ‘06: Proceedings of the 7th symposium on Operating systems design and implementation, pages 335-350, Berkeley, CA, USA, 2006. USENIX Association.
[4] Fay Chang, Jeffrey Dean, Sanjay Ghemawat, Wilson C. Hsieh, Deborah A. Wallach, Mike Burrows, Tushar Chandra, Andrew Fikes, and Robert E. Gruber. Bigtable: A distributed storage system for structured data. In In Proceedings of the 7th Conference on USENIX Symposium on Operating Systems Design and Implementation – Volume 7, pages 205-218, 2006.
[5] Abhinandan Das, Indranil Gupta, and Ashish Motivala. Swim: Scalable weakly-consistent infection-style process group membership protocol. In DSN ‘02: Proceedings of the 2002 International Conference on Dependable Systems and Networks, pages 303-312, Washington, DC, USA, 2002. IEEE Computer Society.
[6] Giuseppe de Candia, Deniz Hastorun, Madan Jampani, Gunavardhan Kakulapati, Alex Pilchin, Swaminathan Sivasubramanian, Peter Vosshall, and Werner Vogels. Dynamo: amazonO? s highly available key-value store. In Proceedings of twenty-first ACM SIGOPS symposium on Operating systems principles, pages 205-220. ACM, 2007.
[7] Jeffrey Dean and Sanjay Ghemawat. Mapreduce: simplified data processing on large clusters. Commun. ACM, 51(1):107-113, 2008.
[8] Xavier D?efago, P?eter Urba?n, Naohiro Hayashibara, and Takuya Katayama. The φ accrual failure detector. In RR IS-RR-2004-010, Japan Advanced Institute of Science and Technology, pages 66-78, 2004.
[9] Sanjay Ghemawat, Howard Gobioff, and Shun-Tak Leung. The google file system. In SOSP ‘03: Proceedings of the nineteenth ACM symposium on Operating systems principles, pages 29-43, New York, NY, USA, 2003. ACM.
[10] Jim Gray and Pat Helland. The dangers of replication and a solution. In In Proceedings of the 1996 ACM SIGMOD International Conference on Management of Data, pages 173-182, 1996.
[11] David Karger, Eric Lehman, Tom Leighton, Matthew Levine, Daniel Lewin, and Rina Panigrahy. Consistent hashing and random trees: Distributed caching protocols for relieving hot spots on the world wide web. In In ACM Symposium on Theory of Computing, pages 654-663, 1997.
[12] Matthew L. Massie, Brent N. Chun, and David E.Culler. The ganglia distributed monitoring system: Design, implementation, and experience. Parallel Computing, 30:2004, 2004.
[13] Benjamin Reed and Flavio Junquieira. Zookeeper.
[14] Peter Reiher, John Heidemann, David Ratner, Greg Skinner, and Gerald Popek. Resolving file conflicts in the ficus file system. In USTC’94: Proceedings of the USENIX Summer 1994 Technical Conference on USENIX Summer 1994 Technical Conference, pages 12-12, Berkeley, CA, USA, 1994. USENIX Association.
[15] Robbert Van Renesse, Yaron Minsky, and Mark Hayden. A gossip-style failure detection service. In Service,Tˇ Proc. Conf. Middleware, pages 55-70, 1996.
[16] Mahadev Satyanarayanan, James J. Kistler, Puneet Kumar, Maria E. Okasaki, Ellen H. Siegel, and David C. Steere. Coda: A highly available file system for a distributed workstation environment. IEEE Trans. Comput., 39(4):447-459, 1990.
[17] Ion Stoica, Robert Morris, David Liben-nowell, David R. Karger, M. Frans Kaashoek, Frank Dabek, and Hari Balakrishnan. Chord: a scalable peer-to-peer lookup protocol for internet applications. IEEE/ACM Transactions on Networking, 11:17-32, 2003.
[18] D. B. Terry, M. M. Theimer, Karin Petersen, A. J. Demers, M. J. Spreitzer, and C. H. Hauser. Managing update conflicts in bayou, a weakly connected replicated storage system. In SOSP ‘95: Proceedings of the fifteenth ACM symposium on Operating systems principles, pages 172-182, New York, NY, USA, 1995. ACM.
[19] Robbert van Renesse, Dan Mihai Dumitriu, Valient Gough, and Chris Thomas. Efficient reconciliation and flow control for anti-entropy protocols. In Proceedings of the 2nd Large Scale Distributed Systems and Middleware Workshop (LADIS ‘08), New York, NY, USA, 2008. ACM.
[20] Matt Welsh, David Culler, and Eric Brewer. Seda: an architecture for well-conditioned, scalable internet services. In SOSP ‘01: Proceedings of the eighteenth ACM symposium on Operating systems principles, pages 230-243, New York, NY, USA, 2001. ACM.

No related posts.

CONAN 2010-07-18 15:57 发表评论

�? 时统�?/th>	搜烦交互	术语
最��?/td>	7.69ms	7.78ms
�? �?/td>	15.69ms	18.27ms
最�?/td>	26.13ms	44.41ms

日批日出水久久亚洲精品tv,久久久久亚洲AV成人网人人网站,亚洲日本国产综合高清

Cassandra �?一个分散的非结构化存储�pȝ��