中文字幕精品三区无码亚洲,亚洲一级Av无码毛片久久精品,亚洲AV无码一区二区乱孑伦AS

void — Fri, 18 Sep 2009 01:26:00 GMT

转蝲�?
http://www.ciotimes.com/infrastructure/database/a/database200909161049.html

��D��:本文提出一�U�改�q�的数据仓库体系�l�构�Q�在数据仓库中添加一个辅助结构作为接收和存储更新数据的暂存库�Q�直到数据仓库获得空闲周期，加入新的数据和更新必要的视图�Q�通过试验模拟两种数据仓库�l�构�Q�验证了新的模型在设计和性能上的优越性�?nbsp;

    本文提出一�U�改�q�的数据仓库体系�l�构�Q�在数据仓库中添加一个辅助结构作为接收和存储更新数据的暂存库�Q�直到数据仓库获得空闲周期，加入新的数据和更新必要的视图�Q�通过试验模拟两种数据仓库�l�构�Q�验证了新的模型在设计和性能上的优越性�?br />
    数据仓库中的数据是从多业务处理系�l�中抽取转换而来的，�q�些数据源的数据是不断变化的。因此，数据仓库需要更新机制来不断更新和维护，以保证数据的完整和正��。同�Ӟ��数据仓库面向决策支持�Q�数据仓库的体系�l�构应努力保证查询和分析的实时性�?br />
    现在�pȝ��来��庞大，数据源越来越多，�l�构也越来越复杂�Q�这使得数据仓库的加载和更新�l�护工作更加困难�Q�制定一个数据集成的计划��p��的时间和�_�֊�也是��来��多。面对这�U�情况，开发�h员的�_�֊�被调度繁杂的�pȝ��所占用�Q�无法集中到制定合理高效的数据集成计划上来。�ؓ了�ɘq�一�q�程更加自动化，减少人工�q�预�Q�我们引入了��Z��元数据库的工作流�Ҏ��Q��得整个数据仓库更新处理过�E�成��Z��个整体，更加��单易行，减轻了开发�h员的负担�Q�从而提高效率�?br />
    1 数据仓库的更新问�?/strong>

    ��Z��对决�{�提供有效的支持�Q�数据仓库中的数据需要不断地从业务数据库中得到更新。数据更新是指在原有数据仓库基础上，定期捕捉源数据库的变化数据，�q�加到数据仓库中。数据仓库获得所需更新信息的方法有以下3�U�：

    �Q?�Q�由建立在源数据库上的应用程序提供更��C��息给数据仓库。这�U�方法优�Ҏ��易于执行�Q�只要对历史遗留�pȝ��的代码稍加修改，使它提供源数据库中的更新�l�数据仓库。缺�Ҏ��遗留�pȝ��的代码难以提供一个好的��^��Cؓ数据仓库更新�?br />
    �Q?�Q�利用日志文件。这�U�方法的优点是对数据仓库的更��C��会媄响源数据库，利用日志文�g效率很高�Q�避免了扫描整个数据库。缺�Ҏ��解析源数据库日志文�g有困难，卻I��①系�l�日志文仉��常采用软�g供应商专有的形式�Q�而不同供应商之间难于�׃�n�l�构信息�Q�②获得日志文�g�Q�需要系�l�管理员权限�Q�③数据库系�l�不一定都有实施该�Ҏ��的数据库日志�c�d��?br />
    �Q?�Q�前后映象文件的�Ҏ��。在抽取数据前后�Ҏ��据库各作一�ơ快照，然后比较两幅快照的不同从而确定新数据。这�U�方法的优点和第2�U�方法一��P��快照数据被提供给数据仓库�Q�或者提供给独立于源数据库和数据仓库的辅助处理器�Q�来完成快照的比较工作。缺�Ҏ��快照文�g会变得越来越大，��D��快照的比较工作非常耗时�Q�占用大量资源，影响性能。数据仓库更新过�E�牵涉的因素众多而且复杂�Q�因此，本文的研�I�只限于源数据已�l�传递到数据仓库后的数据更新处理�?br />
    2 改进的数据仓库体�pȝ��?/strong>

    常用的数据仓库体�pȝ��构如�?所�C�，它集成源数据库的数据�Q��ƈ��其存储在数据仓库中�Q�用��L��接从数据仓库讉K��数据。这个结构简单易行，但它不能及时地自动侦��源数据库的更新�Q�只有当高端应用�Ҏ��据仓库进行查询时�Q�才由数据仓库的实体化视囑֯�相关的源数据库发动查询，源数据库�Ҏ��新处理处于被动状态。本文徏议在数据仓库体系�l�构中添加一个如�?所�C�的更新辅助�l�构�Q�来优化数据仓库的性能�Q�减��用��h��询时间。该�l�构假定为非易失随机存储器NVRAM�Q�用它作为数据仓库和数据解释器之间的�~�冲存储区。辅助结构和源数据库�Q�SDB�Q�之间的数据��是单向的，负责接收由SDB提交到数据解释器的更新数据。辅助结构和数据仓库之间的数据流是双向的�Q�它向数据仓库提供视囄��护的基本数据�Q�数据仓库的查询和维护请求则在辅助结构中执行完成。有了这个辅助结构，避免了数据仓库在接收数据解释器中数据的同�Ӟ��Ҏ��据库表和用户视图执行更新�l�护。��得数据仓库的更新选择在系�l�空闲时��_��而不是在新数据由源数据库转换的同时进行。数据仓库��用具有周期性，因此必然存在接收更新数据的空闲时间。另外数据仓库可以查询辅助结构获取更新数据，反馈�l�用��L��查询。�ؓ了防止辅助结构中数据溢出�Q�设一个机制强制执行更��C��务，��有��x��据传送到数据仓库�?

    �? 标准数据库仓库模�?br />
    �? 数据仓库的改�q�模�?/strong>

    3 改进模型的设计实�?/strong>

    新模型结构重点在于用��h��询，�pȝ��对用��h��询响应拥有对�pȝ��其他�q�程更高的优先权�?br />
    �Q?�Q�功能结构。来自数据解释器的数据，首先存放在更新辅助结构的数据表中。这些辅助表�Q�例如烦引）是存储在数据仓库中的表的副本�Q�但是不��h��与数据仓库结构相联系的管理能力。它们是用于更新数据仓库的��时存储，而不用于用户直接讉K��。更��C��息传送到辅助�l�构�Ӟ��首先��查辅助结构的�I�间相对分配�l�辅助结构的NVRAM�I�间所占比例。当辅助�l�构已��用空间达到NVRAM�I�间�?5�Q�，标志溢出�Q�更新辅助结构自动生成数据包和必要的查询传递给数据仓库。溢出功能触发器是一�U�安全措施，防止因�ؓ更新辅助�l�构的存储空间满�Q�不能接收来自数据解释器的数据。操作流�E��ؓ数据仓库在空闲时间请求更新辅助结构里的数据。数据仓库的�pȝ��h��或者数据溢出标志可能会触发更新�q�程。一旦更新进�E�被触发�Q�更新辅助结构生成数据包�Q��ƈ发送给数据仓库�Q�用于插入到数据仓库表中。数据仓库中相应的数据表和视图被更新�Q�在更新完成后，事务完成信息�q�回�l�辅助结构。然后辅助结构删除��时存储表中的相关数据�Q�从而释攑օ�占用的空间�?br />
    �Q?�Q�处理用��h��询。数据仓库接到用��h��询要求后�Q�系�l�暂停队列表中除了来自辅助结构的用户查询响应之外的所有队列。仓库应用程序确认用��h��询，�q�将一个查询副本立卛_��送给更新辅助�l�构�Q�辅助结构��时内存中可能存有与查询相关的信息。查询先在数据仓库的��L��据表处理�Q�查询的�l�果暂存在��时表里，该��时表用于存放以后不断�U�篏的查询结果数据。如果辅助结构里有�Q何与查询有用的数据，会被立即提交�l�数据仓库作为对查询副本的响应。辅助结构响应用��h��询的数据传输在系�l�信息通道中有最高优先权�Q�以��保来自数据仓库的信息迅速地被处理，�q��当前执行的用��h��询较�pȝ��查询队列里其他查询最先获得所需数据。如果辅助结构中没有�W�合用户查询要求的数据，辅助�l�构提交一个空包作为响应，防止数据仓库�I�等待，使数据仓库能控制用户查询�q�程�Q�确认查询进�E�的�l�束。来自辅助结构的数据加入��C��时表里，然后发给报表�Q�视囄��成器处理成用户可�ȝ��形式�?br />
    4 ��Z��XML的中间�g模型

    改进�l�构中提供了多种操作�W�，如投影、选择、连接、�ƈ、拆分等。把复杂的数据集成工作分解�ؓ很多相对��单的��步骤，使用户可以灵�z�d��定制自己的数据集成计划，�q�样也�ؓ使用工作��方法来调度整个数据集成计划提供了方便，因�ؓ工作��方法对于这�U�流�E�化的处理十分方�ѝ��用工作流�Ҏ��Q�来操纵数据的流向，使其从数据源�l�过预先指定的处理过�E�流向目标，��x��据仓库中。工作流�Ҏ��M��开元数据库的支持。元数据贯穿于数据仓库的整个�q�程。按照数据库中的定义�Q�元数据是关于数据的数据。在数据仓库的环境下�Q�元数据的作用更加重要，�׃��数据仓库是面向主题的�Q�所以其元数据的内容也更加丰富。初始阶�D�|��们可以根据元数据库提供的数据源信息，来制定清�z�计划，执行�q�个计划�Q�能完成一�ơ数据的抽取转换和加载�Q务，把各个数据源中的零散的数据整合到数据仓库中；在维护阶�D�，把用户在建立数据仓库的初期所制定的计划，主要包括数据库的表信息以及用到的临时表等�Q�以XML文�g的�Ş式保存在元数据库中。这栯��U�了��理人员的时��_��他们的精力可以更多地集中在制定一个合理高效的数据集成计划上，从而提高效率�?br />
    5 一�U�更新流实例

    以下�l�出了一个具体的例子来说明改�q�结构如何处理凋度流�E�，如图3、图4所�C��?/p>

    �? 改进�l�构的数据集成框�?br />
    �? 计划工作��流�E?/strong>

    �?中每一个节炚w��是工作流的一个活动，��头所指向的是数据��的实际��向�Q�从数据源到目标。虚�U�表�C�的是控制流。数据流向和控制��向基本相同�Q�重合的没有��d��Q�只是在�q�操作时不同�Q�所以用不同的箭头标注出来。本例中�Q�要把来�?个不同数据库的原始表�l�过一�p�d��的操作如投媄�q�接�{�，整合成一张表加蝲到数据仓库中。首先通过ODBC�Q�OLE DB标准或者数据源提供的API�Q�把数据从源中抽取出来。然后先投媄�?�Q�再与表2�q�行�q�接�Q�得到的表与�?�q�行�qӞ��形成一张表�Q�再�q�行一些排序筛选，最后加载到目标数据仓库中。要注意的是�Q�在�q�行�qӞ��Union�Q�操作的2个表必须是列�l�构相同�Q�否则要�q�行回溯�Q�对2表进行相应的改动处理�Q�符合Union 的要求后才能�l�箋处理下去�?br />
    在改�q�的模型�l�构中，投媄�Q�Project�Q�、连接（Join�Q�、�ƈ�Q�Union�Q�等操作�W�都对应一个类�Q�Class�Q�。与此操作符相关的各�U�处理都��装在类的内部。工作流引擎通过工作��API接口来调用类内的相关函数�Q�完成数据集成。下面是�?�q�个数据集成计划的XML文�g格式�Q�我们只��x��定义�z�d��的部分：

    …

    …

    Ying Liu

    <�Q�Activitylnvolve>

    SELECT[reader]FROM tablenameWHERE.

    …

    <�Q�ActiVityInvolve>

    <�Q? -�z�d��的流�? ->

    转向6<�Q�Choice>

    转向7<�Q�Choice>

    转向8<�Q�Choice>

    �l�束<�Q�Choice>

    <�Q�App rovalChoices>

    <�Q�Activity>

    …

    <�Q? -�z�d��之间的流向定�? ->

    <�Q�FlowDirection>

    其中是定义Union�q�个�z�d��Q�包括活动的所有者，数据可能��向与条件等。是定义一个流向，卛_��中的一个箭��_��标志了箭头的起始�z�d��{�。这个文件就可以把我们的计划保存下来�Q�工作流引擎通过XP2DL解析器来解析�q�个文�g�Q�来获得最初用户制定的集成计划�?br />
    触发更新操作的时机。触发更新操作可以有多种方式�Q�①可以��q��户驱动，如用户发出命令来�q�行数据仓库的更斎ͼ�②可以时间驱动，如规定在一天当中的某个时刻来更新数据仓库；③还可以用事仉��动，如数据源的日志发生改变后�Q�启动更新操作。触发方式也保存在元数据库中�Q�可以根据需求灵�z�d��选择最��x��式�?br />
    6 �l�束�?/strong>

    数据仓库设计和运行过�E�中�Q�数据抽取、�{换和转蝲ETL是一个重要的问题�Q�其中，数据更新又是一个关键点。本文讨��Z��在数据更新过�E�中�Q��ؓ捕获源数据库更新�Q�提��Z��一�U�改�q�的数据仓库体系�l�构�Q�它使数据的更新较传�l�结构更快速、便捗��ƈ在提出的改进模型基础上，设计了在元数据库指导下，以工作流的方法来调度整个更新�q�程�?/p>

void 2009-09-18 09:26 发表评论

LiveJournal 架构

void — Mon, 14 Sep 2009 14:15:00 GMT
http://www.example.net.cn/archives/2006/03/olivejournaloio.html

void 2009-09-14 22:15 发表评论

大型Web2.0站点构徏技术初�?�?

void — Fri, 14 Aug 2009 08:23:00 GMT
　　一�?web2.0�|�站常用可用性功能模块分�?
　　二�?Flickr的幕后故�?

　　三�?YouTube 的架构扩�?

　　四�?mixi.jp�Q��用开源��Y件搭建的可扩展SNS�|�站

　　五�?Technorati的后台数据库架构

　　六�?通过了解MySpace的六�ơ重构经�?来认识分布式�pȝ��到底该如何创�?

　　七�?从LiveJournal后台发展看大规模�|�站性能优化�Ҏ��

　　八�?说说大型高�ƈ发高负蝲�|�站的系�l�架�?

　　一�?web2.0�|�站常用可用性功能模块分�?/p>
　　Web 2.0�|�站是指��传�l�的�|�站构架�Q��^台、内�Ҏ��、用戗��传播方式等�Q��{化到以用户�ؓ核心的网站构架上来，包括一�p�d��体现web2.0概念的元素、定位和�?意。web2.0�|�站在构架上��M��C��大宗旨，�?strong>强大的后台系�l�和��单的前台��面�Q�也��x��供良好的用户体验�Q�体�?strong>以�h为本�Q�技术服务�h�c?/strong>的宗旨�?

　　web2.0�|�站常用功能块通常包括以下几大��：

　　1.Tag标签功能�?/strong>

　　Tag(中文叫做"标签") 是一�U�新的组�l�和��理在线信息的方式。它不同于传�l�的、针�Ҏ��件本�w�的关键字检索，而是一�U�模�p�化、智能化的分�c�R�?

　　�|�页使用Tag标签的好处：

　　为页面设�|�一个或者多个Tag标签可以引导读者阅��L��多相��x��章，为别人带��L��量同理也��己带来流量�?

　　可以帮助读者及时了解一些未知的概念和知识点�Q�提高用户体验�?

　　Tag是�h的意志和��向的体玎ͼ�Tag可以帮助你找到兴��相投的人�?

　　��Z��以上优势�Q�Tag标签代替了传�l�的分类法，成�ؓweb2.0�|�站使用率最高的功能块（与其说是功能块倒不如说是一�U�内容导航和内容�l�织形式�Q��?

　　一句话�Q�Tag标签是一�U�更灉|��的分�c�L��法，功能在于引导�Q�特�Ҏ��无处不在�Q�体现智能性、模�p�性和��向性�?

　　2.RSS订阅功能�?/strong>

　　RSS是在�U�共享内容的一�U�简易方式（也叫聚合内容�Q�Really Simple Syndication�Q�。通常在时效性比较强的内容上使用RSS订阅能更快速获取信息，�|�站提供RSS输出�Q�有利于让用戯��取网站内容的最新更新。网�l?用户可以在客��L��借助于支持RSS的聚合工兯��Y�Ӟ��例如SharpReader,NewzCrawler、FeedDemon�Q�，在不打开�|�站内容��面�?情况下阅��L��持RSS输出的网站内宏V�?

　　RSS订阅的方式：

　　订阅到客��L��软�g如周伯通、遨游浏览器RSS阅读、Foxmail RSS阅读�{�，此方式��用者较�?

　　订阅到在�U�K��读（聚合�c�）门户�|�站如Google Reader�Q�Yahoo Reader�Q�抓虾、Gougou�{�，省去了安装RSS阅读器的�ȝ��

　　订阅到在�U�单用户聚合器如Lilina�{�，比较灉|��

　　RSS订阅功能的最大好处是定向投递，也就是说RSS机制更能体现用户的意愿和个性，获取信息的方式也最直接和简单，�q�是RSS订阅功能备受青睐的一大主要原因�?

　　3.推荐和收藏功能块

　　说到推荐功能�Q�不仅web2.0�|�站在大量��用，传统的以cms�q�_��Z��表的内容模式的网站也在大量��用，推荐功能主要是指向一些网摘或者聚合类门户�|�站推荐自己所��览到的�|�页。当�Ӟ��一�U�变相的推荐��是阅读者的自我收藏行�ؓ�Q�在�׃�n的模式下也能起到推荐的作用�?

　　比较有名的推荐目标有以del.icio.us��Z��表的�|�摘�cȝ��站包括国内比较有名气�?65key、和讯网摘、新��vivi、天极网摘等。这里值得一提的是前�D�|��间曾涌现了大批网摘类�|�站�Q�但他们坚持�z�M��来的好像没有几个了，推荐使用前面提到的这几个�|�摘门户�Q��h气基本上是��最旺的�?

　　4.评论和留�a�功能�?/strong>

　　web2.0��参与性，��发挥用户的主��g��用，�q�里的参与性除了所谓的订阅、推荐功能外更多��C��现在用户对内容的评�h和态度�Q�这��p��靠评�?功能块来完成。一个典型的web2.0�|�站或者说一个能体现人气的web2.0�|�站都会花大量篇�q�来体现用户的观点和视觉。这里尤其要提到web2.0�?的带头老大web blog�Q�评论功能已�l�成为博客主��Z��览者交��的主要阵地�Q�是体现�|�站人气的最直观因素�?

　　评论功能块应用在博客�pȝ��中实际上已经和博客内容相分离�Q�而更好的应用恰恰是一些以点评��Z��的web2.0�|�站比如豆瓣、点评网�{�，�q�里的评论功能块直接刉��了内容也极大地体现了网站的人气�Q�所以说评论功能块是web2.0�|�站最有力的武�?/strong>�?

　　5.站内搜烦功能�?/strong>

　　搜烦是信息来源最直接的方式之一�Q�无��Z��的网站是否打上web2.0的烙华ͼ�搜烦对于一个体�p�d��大、内容丰富的大型�|�站都是非常必要的。Tag 标签在某�U�程度上起到搜烦的作用，它能够有效聚合以此Tag为关键词的内容，但这�U�情�늚�前提是此Tag标签�Ҏ��览者是可见的，也就是说当Tag标签摆在 ��览者的眼前时才成立�Q�而对于那些浏览者想要的信息却没有Tag标签来引导时搜烦��是辑ֈ�此目的的最好方法�?

　　对于web2.0�|�站�Q�站内搜索以标题或者Tag为搜索域都能起到好的效果�Q�但本�h不徏议��用内�Ҏ��索域�Q�因��不符合搜索的高效性原则。同 �Ӟ��h��H�出关键词的内容往往都可以用Tag标签来引��|��因此使用内容域来搜烦实际上是一�U�浪�Ҏ��务器资源的行为，而且搜烦�l�果的准��性将大打折扣�?

　　6.��组功能�?/strong>

　　我�ؓ什么要把群�l�作为web2.0�|�站的功能块来分析呢�Q�因为群�l�是web2.0�|�站的一大特点，也是web2.0所要体现的服务宗旨所在。一个web2.0�|�站�Q�博客也好、播客也好、点评也好，抑或是网摘、聚合门��P��他们都强调�h的参与性。物以类聚、�h以群分，每个参与者都有自��q��兴趣��向�Q?web2.0�|�站的另一主要功能��是帮助�q�些人找到同样兴��的人�ƈ形成一个活跃的��体�Q�这是web2.0�|�站的根本�?

　　�ȝ��Q�web2.0�|�站倡导的是集体创作、共享资�?/strong>�Q�靠的是人气�Q�体现的是参与性，一个没有参与性的web2.0�|�站都不��以成�ؓ web2.0。以上提到的�q�几个功能块��是以吸引用户参与和引导用户参与为目的的�Q�真正的web2.0不是什么深奥的东西�Q�只有一点，那就是如何让��览�?沸腾��h��?

　　二�?Flickr的幕后故�?/p>
　　我们都看�?Flickr 的成功，而又有多��?�_�英"们了解过 Flickr 背后的过�E�是多么充满艰险�?

　　Flickr �?strong>�?CGI 的动态构�?/strong>(呀呀....)�Q��ƈ以一�U?.gne 的脚本作�?CGI �E�序语言。不��网站制作菜鸟还是高手都会疑惑：gne 是哪�U�程序语�a��Q�答案：gne 不是一�U�语�a��Q�Flickr 是以极�ؓ�l�典�?PHP + MySQL 方式实现的，在被 Yahoo 收购服务器搬入美国之前，使用�?21 収ͼ�69.90.111.101-121�Q?Apache/PHP �?Web�?3 台图片服务器、另�?MySQL 服务器组成的数据库集��的服务器数量未知。现在估计��用的�?Yahoo 的负载均衡系�l�，对外只有一�?Web �?IP 和图片服务器�?IP 了�?

　　那�ؓ�?.php 的文件要�Ҏ�� .gne 呢？以往有大型网站�ؓ向后兼容性考虑�Q�隐藏以�E�序语言命名的脚本文件扩展名�Q�比�?Baidu 隐藏�?.php(哈哈..baidu也是php�?�q�以为是c)�Q�Google �?http 服务器是自己写的�Q�整合了脚本�E�序�Q�个别页面是 .py--Python�Q�；�q�有一些网站是�Ҏ��自己�|�站名相关的扩展名，�?MSN 的群�l�则�?.msnw�Q�榕树下�?.rs�?

　　�?Flickr �?gne 是什么意思？我在�l�基癄��?Flickr 条目上找��C��{�案(中文 Flickr 条目上没有写�? 。原�?GNE �?Game NeverEnding 的羃写，Flickr 的开发�?Ludicorp �?2002-2004 �q�一直在开发这套以 Game NerverEnding 为名�U�的大型多�h在线角色扮演游戏--一�?font color="#ff9900">��Z��览器的 Web 游戏�pȝ��Q�个��Z��为应该就是当�q�九城的虚拟城市。但是开发近 3 �q�后该计划不得不破��Q�最�l�只发布了一�?Beta 版，�?Ludicorp ��这套系�l�稍加移植，��有�?Flickr。呵呵，原来 gne 是一个项目的名称。关�?GNE 的一些连接：http://del.icio.us/schee/gne�?

　　早期�?Flickr 惛_��成在�c�M��聊天室的地方让网友分享、交��自��q��照片�Q�注重社区�Ş式和保护照片不被外部引用�Q�见徐子�?004�q�的文章�Q�，可能是看��C�� Hello 的模式吧。但是聪明的 Flickr 团队不久��改变了�{�略�Q?strong>淡化了传�l�的�C�֌�形式--如聊天室、而加��Z��现在使其功成名就�?Tag �l�织形式�Q�一�U�更自由更随兴更��L��好玩的大�C�֌�形式�Q�或者叫它广义社区吧�Q�我随便叫的�Q�可能太学究�Q�看着别太在意��是了。另外，��原来照片只能在 Flash 内浏览的限制区除了，�q�大力推荐用户将照片引用到自��q�� Blog�Q�这无疑对于挑战传统相册�pȝ��有决定性意义。减��?Flash 后的�|�页更多地引�q�了新兴�?Ajax 技术，使界面操作变得非�?Cool�?

　　�q�就�?Flickr 的历�Ԍ��清晰地看��C��他们对于优秀产品的执著。有�?strong>技术和�l�验�U�篏(�q�是很必要的)�Q�加上不断坚持，��L��一天时来运转，你的产品会成为新潮流的里�E�碑�?

　　�q�有一句话要告�?Yupoo �{�：�?Flickr ��x��一个有 Tag 功能的在�U�相册就已经错远了；复制�_�脓者们惛_��然将 Flickr ��d��p�粕取其�_�֍��Q�结果无关紧要的拿来了，��o人激动的优点都去掉了�Q�结果剩下什么？

　　三�?YouTube的架构扩�?/p>
　　在西雅图扩展性的技术研讨会上，YouTube �?Cuong Do 做了关于 YouTube Scalability 的报告。视频内容在 Google Video 上有(地址)�Q�可惜国内用��L��不到�?

　　Kyle Cordes 对这个视频中的内容做了介�l�。里面有不少技术性的内容。值得分��n一下�?Kyle Cordes 的介�l�是本文的主要来�?

　　��单的�?YouTube 的数据流�? "一天的YouTube��量相当于发�?50亿封电子邮�g.", 2006 �q�中��有消息说每�?PV ��过 1 �?现在? 更夸张了,"每天�?0亿次下蝲以及6,5000�ơ上�?, 真假姑且不论, 的确是超乎寻常的��量. 国内的互联网应用,但从数据量来�?怕是只有 51.com 有这个规�? 但技术上�?YouTube ��没法子比了.

　　1.Web服务�?/strong>

　　YouTube ��Z��开发速度的考虑�Q?strong>大部分代码都�?Python 开发的。Web 服务器有部分�?Apache�Q?�?strong> FastCGI 模式。对于视频内容则�?Lighttpd 。据我所知，MySpace 也有部分服务器用 Lighttpd �Q�但量不大。YouTube �?Lighttpd 最成功的案例�?国内�?Lighttpd 站点不多�Q�豆瓣用的比较舒服。by Fenng)

　　2.视频

　　视频的羃略图(Thumbnails)�l�服务器带来了很大的挑战。每个视频��^均有4个羃略图�Q�而每�?Web ��面上更是有多个�Q�每�U�钟因�ؓ�q�个带来的磁�?IO ��h��太大。YouTube 技术�h员启用了单独的服务器��组来承担这个压力，�q�且针对 Cache �?OS 做了部分优化。另一斚w��Q�羃略图��h��的压力导�?Lighttpd 性能下降。通过 Hack Lighttpd 增加更多�?worker �U�程很大�E�度解决了问题。而最新的解决�Ҏ��是�v用了 Google �?BigTable�Q?�q�下子从性能、容错、缓存上都有更好表现。看人家�q�收购的�Q�好钢用在了刀刃上�?

　　��Z��冗余的考虑�Q�每个视频文件放在一�l�迷�?Cluster 上，所�?"�q�你 Cluster" ��是一�l�具有相同内容的服务器。最火的视频攑֜� CDN 上，�q�样自己的服务器只需要承担一�?漏网"的随卌��问即可。YouTube 使用��单、廉仗��通用的硬�Ӟ��q�一点和 Google 风格倒是一致。至于维护手�D�，也都是常见的工具�Q�如 rsync, SSH �{�，只不�q��h家更手熟�|�了�?

　　3.数据�?/strong>

　　YouTube �?MySQL 存储元数�?-用户信息、视频信息什么的。数据库服务器曾�l�一度遇�?SWAP 颠簸的问题，解决办法是删掉了 SWAP 分区! ��用�?

　　最初的 DB 只有 10 块硬盘，RAID 10 �Q�后来追加了一�l?RAID 1。够省的。这一�?Web 2.0 公司很少有用 Oracle �?我知道的只有 Bebo,参见�q�里). 在扩展性方面，路线也是和其他站点类��|��复制�Q�分�?IO。最�l�的解决之道�?分区",�q�个不是数据库层面的表分区，而是业务层面的分�?在用户名字或�?ID 上做文章,应用�E�序控制查找机制)

　　YouTube 也用 Memcached.

　　很想了解一下国�?Web 2.0 �|�站的数据信�?有谁可以提供一�??

　　四�?mixi.jp�Q��用开源��Y件搭建的可扩展SNS�|�站

　　Mixi目前是日本排名第三的�|�站�Q�全球排�?2�Q�主要提供SNS服务�Q�日讎ͼ��组�Q�站内消息，评论�Q�相册等�{�，是日本最大的SNS�|�站�?Mixi�?003�q?2月䆾开始开发，��q��在它的CTO - Batara Kesuma一个�h焊，焊了四个月，�?004�q?月䆾开始上�U�运行。两个月后就注册�?w用户�Q�日讉K��?0wPV。在随后的一�q�里�Q�用户增长到�?21w�Q�第二年�Q�增长到�?00w。到今年四月份已�l�增长到370w注册用户�Q��ƈ且还在以每天1.5w人的注册量增�ѝ��这些用户中70%是活跃用��P��z�跃用户�Q�三天内臛_��d��一�ơ的用户�Q�，�q�_��每个用户每周在线旉��为将�q?个半��时�?

　　下面我们来看它的技术架构。Mixi采用开源��Y件作为架构的基础�Q�Linux 2.6�Q�Apache 2.0�Q�MySQL�Q�Perl 5.8�Q�memcached�Q�Squid�{�等。到目前为止已经�?00多台MySQL数据库服务器�Q��ƈ且在以每�?0多台的速度增长。Mixi的数据库�q?接方式采用的是每�ơ查询都�q�行�q�接�Q�而不是持久连接。数据库大多数是以InnoDB方式�q�行。Mixi解决扩展问题主要依赖于对数据库的切分�?

　　首先�q�行垂直切分�Q�按照表的内容将不同的表划分��C��同的数据库中。然后是水��^切分�Q�根据用��L��ID��不同用��L��内容再划分的不同的数据库中，�q?是比较通常的做法，也很��用�?/strong>划分的关键还是在于应用中的实玎ͼ�需要将操作��装在在数据层，而尽量不影响业务层。当然完全不改变逻辑层也不可能，�q�时候最能检验以前的设计是否��C��Q�如果以前设计的不错�Q�那创徏�q�接的时候传个表名，用户ID�q�去差不多就解决问题了，而以前如果sql代码到处飞，或者数据层��?装的不太好的话那��q��了�?

　　�q�样做了以后�q�不能从�Ҏ��上解决问题，��其是对于像mixi�q�种SNS�|�站�Q�页面上往往需要引用大量的用户信息�Q�好友信息，囄��Q�文章信息，�?表，跨库操作相当多。这个时候就需要发挥memcached的作用了�Q�用大内存把�q�些不变的数据全都缓存�v来，而当修改时就通知cache�q�期�Q�这样应�?层基本上��可以解军_��部分问题了，只会有很��一部分��h��I�K��应用层�Q�用到数据库。Mixi的经验是�q�_��每个��面的加载时间在0.02�U�左叻I��当然�Ҏ��面大小情况不尽�怼��Q�，可以说明�q�种做法是行之有效的。Mixi一共在32台机器上有缓存服务器�Q�每个Cache Server 2G内存�Q�这些Cache Server与App Server装在一赗��因为Cache Server对CPU消耗不大，而有了Cache Server的支��_��App Server对内存要求也不是太高�Q�所以可以和�q�_��处，更有效的利用资源�?

　　囄��的处理就昑־�相对��单的多了。对于mixi而言�Q�图像主要有两部分：一部分是经常要使用到的�Q�像用户头像�Q�群�l�的头像�{�等�Q�大概有100�?GB�Q�它们被Squid和CDN所�~�存�Q�命中率相对比较高；另一部分是用户上传的大量照片�Q�它们的个体讉K��量相对而言比较��，命中率也比较低，使用 Cache不划��，所以对于这些照片的�{�略是直接在用户上传的时候分发到到图片存储服务器上，在用戯��问的时候直接进行访问，当然囄��的位�|�需要在数据�?中进行记录，不然找不到放在哪台服务器上就郁闷了�?

　　五�?Technorati的后台数据库架构

　　Technorati(现在被阻��g��, 可能你访问不�?�?Dorion Carroll�?2006 MySQL 用户会议上介�l�了一些关�?Technorati 后台数据库架构的情况.

　　基本情况

　　目前处理着大约 10Tb 核心数据, 分布在大�U?20 台机器上.通过复制, 多增加了 100Tb 数据, 分布�?200 台机器上. 每天增长的数�?1TB. 通过 SOA 的运�? 物理与逻辑的访问相隔离,　��g��消除了数据库的瓶�? 值得一提的�? 该扩展过�E�始�l�是利用普通的��g与开源��Y件来完成�? 毕竟 , Web 2.0 站点都不是烧��q��? 从数据量来看�Q�这�l�对是一个相�Ҏ��较大�?Web 2.0 应用.

　　Tag �?Technorati 最为重要的数据元素. 爆炸性的 Tag 增长�l?Technorati 带来了不��的挑战.

　　2005 �q?1 月的时�? 只有两台数据库服务器, 一��M��? ��C�� 06 �q�一月䆾, 已经是一��M��? 6 �?MyISAM 从数据库用来对付查询, 3 �?MyISAM 用作异步计算.

　　一些核心的处理�Ҏ��:

　　1) �Ҏ��实体(tags/posttags))�q�行分区

　　衡量数据讉K��Ҏ��Q�读和写的��^�?然后通过不同的维度进行分区．( Technorati 数据更新不会很多, 否则会成为数据库��N��)

　　2) 合理利用 InnoDB�?MyISAM

　　InnoDB 用于数据完整�?写性能要求比较高的应用. MyISAM 适合�q�行 OLAP �q�算. 物尽其用.

　　3) MySQL复制

　　复制数据��C��L��据库到辅数据库上,�q��分布查询与异步计��? 另外一个功能是提供冗余�Q?如图:

　　

　　

　　

　　六�?通过了解MySpace的六�ơ重构经�?来认识分布式�pȝ��到底该如何创�?

　　在每个里�E�碑�Q�站点负担都会超�q�底层系�l�部分组件的最大蝲��P��特别是数据库和存储系�l�。接着�Q�功能出现问题，用户失声��叫。最后，技术团队必��Mؓ此修订系�l�策略�?

　　虽然�?005�q�早期，站点账户数超�q?百万后，�pȝ��架构到目前�ؓ止保持了相对�E�_��Q�但MySpace仍然在�ؓSQL Server支持的同时连接数�{�方面��l�攻坚，Benedetto��_��"我们已经��可能把事情做到最�?�?

　　1.里程��一�Q?0万�̎�?/strong>

　　按Benedetto 的说法，MySpace最初的�pȝ��很小�Q�只有两台Web服务器和一个数据库服务器。那时��用的是Dell双CPU�?G内存的系�l��?

　　单个数据库就意味着所有数据都存储在一个地方，再由两台Web服务器分担处理用戯��求的工作量。但��像MySpace后来的几�ơ底层系�l�修订时的情况一��P��三服务器架构很快不堪重负。此后一个时期内�Q�MySpace基本是通过�ȝ��更多Web服务器来对付用户暴增问题的�?

　　但到�?004�q�早期，MySpace用户数增长到50万后�Q�数据库服务器也已开始汗��浃背�?

　　但和Web服务器不同，增加数据库可没那么简单。如果一个站点由多个数据库支持，设计者必��考虑的是�Q�如何在保证数据一致性的前提下，让多个数据库分担压力�?

　　在第二代架构中，MySpace�q�行�?个SQL Server数据库服务器�?-一个�ؓ主，所有的新数据都向它提交�Q�然后由它复制到其他两个�Q�另两个全力向用户供�l�数据，用以在博客和个�h资料栏显�C�。这 �U�方式在一�D�|��间内效果很好--只要增加数据库服务器�Q�加大硬盘，��可以应对用��h��和访问量的增加�?

　　2.里程��二�Q?-2百万账户

　　MySpace注册数到�?百万�?百万区间后，数据库服务器开始受制于I/O定w��--卛_��们存取数据的速度。而当时才�?004�q�中�Q�距��M�� ơ数据库�pȝ��调整不过数月。用��L��提交��h��被阻塞，��像千�h乐迷要挤�q�只能容�U�_��百�h的夜��M��Q�站点开始遭�?主要矛盾"�Q�Benedetto��_��q�意�?着MySpace永远都会��d��落后于用户需求�?

　　"有�h�?分钟都无法完成留�a��Q�因此用��h��L��抱怨说�|�站已经完蛋了�?他补充道�?

　　�q�一�ơ的数据库架构按照垂直分割模式设计，不同的数据库服务于站点的不同功能�Q�如��d��、用戯��料和博客。于是，站点的扩展性问题看似又可以告一�D�落了，可以歇一阵子�?

　　垂直分割�{�略利于多个数据库分担访问压力，当用戯��求增加新功能�Ӟ��MySpace��投入新的数据库予以支持它。�̎户到�?百万后， MySpace�q�从存储讑֤�与数据库服务器直接交互的方式切换到SAN�Q�Storage Area Network�Q�存储区域网�l�）--用高带宽、专门设计的�|�络��大量磁盘存储设备连接在一��P��而数据库�q�接到SAN。这��Ҏ��施极大提升了�pȝ��性能、正常运行时间和可靠性，Benedetto说�?

　　3.里程��三�Q?百万账户

　　当用��L��l�增加到3百万后，垂直分割�{�略也开始难以�ؓ�l�。尽��站点的各个应用被设计得高度独立�Q�但有些信息必须�׃�n。在�q�个架构里，每个数据�?必须有各自的用户表副�?-MySpace授权用户的电子花名册。这��意味着一个用��h��册时�Q�该条�̎戯��录必��d��9个不同数据库上分别创建。但在个别情�?下，如果其中某台数据库服务器临时不可到达�Q�对应事务就会失败，从而造成账户非完全创建，最�l�导致此用户的该��Ҏ��务无效�?

　　另外一个问题是�Q�个别应用如博客增长太快�Q�那么专门�ؓ它服务的数据库就有巨大压力�?

　　2004�q�中�Q�MySpace面��Web开发者称之�ؓ"向上扩展"�?向外扩展"�Q�译者注�Q�Scale Up和Scale Out�Q�也�U�硬件扩展和软�g扩展�Q�的抉择--要么扩展到更大更强、也更昂�늚�服务器上�Q�要么部�|�大量相对便宜的服务器来分担数据库压力。一般来��_��大型�?点們֐�于向外扩展，因�ؓ�q�将让它们得以保留通过增加服务器以提升�pȝ��能力的后路�?

　　但成功地向外扩展架构必须解决复杂的分布式计算问题�Q�大型站点如Google、Yahoo和Amazon.com�Q�都必须自行研发大量相关技术�?strong>以Google��Z��Q�它构徏了自��q��分布式文件系�l?/strong>�?

　　另外�Q�向外扩展策略还需要大量重写原来��Y�Ӟ��以保证系�l�能在分布式服务器上�q�行�?搞不好，开发�h员的所有工作都��白�?�Q�Benedetto说�?

　　因此�Q�MySpace首先��重�Ҏ��在了向上扩展上，��p��了大�U?个半月时间研�I�升�U�到32CPU服务器以��理更大数据库的问题。Benedetto��_��"那时候，�q�个�Ҏ��看似可能解决一切问题�?如稳定性，更棒的是对现有��Y件几乎没有改动要求�?

　　�p�糕的是�Q�高端服务器极其昂贵�Q�是购置同样处理能力和内存速度的多台服务器��d��的很多倍。而且�Q�站�Ҏ��构师预测�Q�从长期来看�Q�即便是巨型数据库，最后也会不堪重负，Benedetto��_��"换句话讲�Q�只要增长趋势存在，我们最后无论如何都要走上向外扩展的道�\�?

　　因此�Q�MySpace最�l�将目光�U�d��分布式计��架�?-它在物理上分布的众多服务器，整体必须逻辑上等同于单台机器。拿数据库来��_��׃��能再�?�q�去那样��应用拆分，再以不同数据库分别支持，而必��d��整个站点看作一个应用。现在，数据库模型里只有一个用戯��Q�支持博客、个��料和其他核心功能的数据都存储在相同数据库�?

　　既然所有的核心数据逻辑上都�l�织��C��个数据库�Q�那么MySpace必须扑ֈ�新的办法以分担负�?-昄��Q�运行在普通硬件上的单个数据库服务器是无能为力的。这�ơ，不再按站点功能和应用分割数据库，MySpace开始将它的用户按每百万一�l�分�Ԍ��然后��各�l�的全部数据分别存入独立的SQL Server实例。目前，MySpace的每台数据库服务器实际运行两个SQL Server实例�Q�也��是说每台服务器服务大约2百万用户。Benedetto指出�Q�以后还可以按照�q�种模式以更��粒度划分架构，从而优化负荷分担�?

　　当然�Q�还是有一个特�D�数据库保存了所有�̎��L��名称和密码。用��L��录后�Q�保存了他们其他数据的数据库再接��服务。特�D�数据库的用戯��虽然庞大�Q�但它只负责用户��d��Q�功能单一�Q�所以负药��是比较容易控制的�?

　　4.里程��四�Q?百万�?�?百万账户

　　2005�q�早期，账户辑ֈ�9百万后，MySpace开始用Microsoft的C#�~�写ASP.NET�E�序。C#是C语言的最新派生语�a��Q�吸�?了C++和Java的优点，依托于Microsoft .NET框架�Q�Microsoft��Y件组件化和分布式计算而设计的模型架构�Q�。ASP.NET则由�~�写Web站点脚本的ASP技术演化而来�Q�是 Microsoft目前��L��的Web站点�~�程环境�?

　　可以说是立竿见媄�Q?MySpace马上��发现ASP.NET�E�序�q�行更有效率�Q�与ColdFusion相比�Q�完成同样�Q务需消耗的处理器能力更��。据技术�ȝ�� Whitcomb��_��C��码需�?50台服务器完成的工作，如果用ColdFusion则需�?46台。Benedetto�q�指出，性能上升的另一个原�?可能是在变换软�g�q�_��Q��ƈ用新语言重写代码的过�E�中�Q�程序员复审�q�优化了一些功能流�E��?

　　最�l�，MySpace开始大规模�q�移到ASP.NET。即便剩余的��部分ColdFusion代码�Q�也从Cold-Fusion服务器搬��C�� ASP.NET�Q�因��Z��们得��C��BlueDragon.NET�Q�乔��M��州阿��法利塔New Atlanta Communications公司的��品，它能��ColdFusion代码自动重新�~�译到Microsoft�q�_��Q�的帮助�?

　　账户辑ֈ�1千万�Ӟ��MySpace再次遭遇存储瓉��问题。SAN的引入解决了早期一些性能问题�Q�但站点目前的要求已�l�开始周期性超��SAN的I/O定w��--卛_��从磁盘存储系�l�读写数据的极限速度�?

　　原因之一是每数据�?百万账户的分割策略，通常情况下的��可以将压力均分到各台服务器�Q�但现实�q��一成不变。比如第七台账户数据库上�U�后�Q�仅�?天就被塞满了�Q�主要原因是佛罗里达一个乐队的歌迷疯狂注册�?

　　某个数据库可能因��Z�Q何原因，在�Q何时候遭遇主要负��P��q�时�Q�SAN中绑定到该数据库的磁盘存储设备簇��可能过载�?SAN让磁盘I/O能力大幅提升了，但将它们�l�定到特定数据库的做法是错误的�?Benedetto说�?

　　最初，MySpace通过定期重新分配SAN中数据，以让其更为均衡的�Ҏ��基本解决了这个问题，但这是一个�h工过�E�，"大概需要两个�h全职工作�?Benedetto说�?

　　长期解决�Ҏ��是迁�U�d��虚拟存储体系上，�q�样�Q�整个SAN被当作一个巨型存储池�Q�不再要求每个磁盘�ؓ特定应用服务。MySpace目前采用了一�U�新型SAN讑֤�--来自加利��尼亚州弗里蒙特�?PARdata�?

　　�?PAR的系�l�里�Q�仍能在逻辑上按定w��划分数据存储�Q�但它不再被�l�定到特定磁盘或��盘��，而是散布于大量磁盘。这��׃��均分数据讉K��负荷成�ؓ�?能。当数据库需要写入一�l�数据时�Q��Q何空闲磁盘都可以马上完成�q�项工作�Q�而不再像以前那样��d��在可能已�l�过载的��盘阵列处。而且�Q�因为多个磁盘都有数据副本，��d��数据�Ӟ��也不会��SAN的�Q何组件过载�?

　　�?005�q�春天�̎��h��辑ֈ�1�?百万�Ӟ��MySpace又启用了新的�{�略以减��d��储系�l�压力，�?strong>增加数据�~�存�?-位于Web服务器和数据�?服务器之�?/strong>�Q�其唯一职能是在内存中徏立被频繁��h��数据对象的副本，如此一来，不访问数据库也可以向Web应用供给数据。换句话��_��100个用戯��求同一�?资料�Q�以前需要查询数据库100�ơ，而现在只需1�ơ，其余都可从缓存数据中获得。当然如果页面变化，�~�存的数据必��M��内存擦除�Q�然后重��C��数据库获�?- 但在此之前，数据库的压力已经大大减轻�Q�整个站点的性能得到提升�?

　　�~�存��为那些不需要记入数据库的数据提供了驿站�Q�比如�ؓ跟踪用户会话而创建的临时文�g--Benedetto坦言他需要在�q�方面补课，"我是数据库存储狂热分子，因此我��L��想着��万事万物都存到数据库�?但将像会话跟�t�这�cȝ��数据也存到数据库�Q�站点将陷入泥沼�?

　　增加�~�存服务器是"一开始就应该做的事情�Q�但我们成长太快�Q�以致于没有旉��坐下来好好研�I�这件事情�?Benedetto补充道�?

　　5.里程��五�Q?�?百万账户

　　2005�q�中期，服务账户数达�?�?百万�Ӟ��MySpace切换��C��q�处于beta��试的SQL Server 2005。�{换何太急？��L��看法�?005版支�?4位处理器。但Benedetto��_��"�q�不是主要原因，��管�q�也很重要；主要�q�是因�ؓ我们对内存的�?求�?支持64位的数据库可以管理更多内存�?

　　更多内存��意味着更高的性能和更大的定w��。原来运�?2位版本的SQL Server服务器，能同时��用的内存最多只�?G。切换到64位，��好像加�_�了输水��的直径。升�U�到SQL Server 2005�?4位Windows Server 2003后，MySpace每台服务器配备了32G内存�Q�后�?006�q�再�ơ将配置标准提升�?4G�?

　　意外错误

　　如果没有对系�l�架构的历次修改与升�U�，MySpace�Ҏ��不可能走��C��天。但是，��Z��么系�l�还�l�常吃撑着了？很多用户抱怨的"意外错误"是怎么引�v的呢�Q?

　　原因之一是MySpace对Microsoft的Web技术的应用已经�q�入�q�Microsoft自己也才刚刚开始探索的领域。比�?1月，��出 SQL Server最大同时连接数�Q�MySpace�pȝ��崩溃。Benedetto��_��q�类可能引发�pȝ��崩溃的情况大概三天才会出��C��ơ，但仍然过于频�J�了�Q�以�?惹�h恼怒。一旦数据库�|�工�Q?无论�q�种情况什么时候发生，未缓存的数据都不能从SQL Server获得�Q�那么你��必然看��C��?意外错误'提示�?他解释说�?

　　��d��夏天�Q�MySpace的Windows 2003多次自动停止服务。后来发现是操作�pȝ��一个内�|�功能惹的祸--预防分布式拒�l�服务攻击（黑客使用很多客户机向服务器发起大量连接请求，以致服务�?瘫痪�Q�。MySpace和其他很多顶�U�大站点一��P��肯定会经帔R��受攻击，但它应该从网�l��而不是依靠Windows本��n的功能来解决问题--否则�Q�大�?MySpace合法用户�q�接时也会引��h��务器反击�?

　　"我们�׃��大约一个月旉��L��Windows 2003服务器自动停止的原因�?Benedetto说。最后，通过Microsoft的帮助，他们才知道该怎么通知服务器："别开枪，是友军�?

　　紧接着是在��d��7月某个周日晚上，MySpace总部所在地�z�杉矶停电，造成整个�pȝ��停运12��时。大型Web站点通常要在地理上分布配�|�多�?数据中心以预防单�Ҏ��障。本来，MySpace�q�有其他两个数据中心以应对突发事�Ӟ��但Web服务器都依赖于部�|�在�z�杉矶的SAN。没有洛杉矶的SAN�Q?Web服务器除了恳求你耐心�{�待�Q�不能提供�Q何服务�?

　　Benedetto��_��L��据中心的可靠性通过下列措施保证�Q�可接入两张不同�늽��Q�另有后备电源和一台储备有30天燃料的发电机。但在这�ơ事故中�Q�不仅两张电�|�失效，而且在切换到备䆾甉|��的过�E�中�Q�操作员烧掉了主动力�U��\�?

　　2007�q�中�Q�MySpace在另两个后备站点上也��了SAN。这对分担负荷大有帮�?-正常情况下，每个SAN都能负担三分之一的数据访问量。而在紧急情况下�Q��Q何一个站炚w��可以独立支撑整个服务�Q�Benedetto说�?

　　MySpace仍然在�ؓ提高�E�_��性奋斗，虽然很多用户表示了��够信��M��能原谅偶现的错误��面�?

　　"作�ؓ开发�h员，我憎恶Bug�Q�它太气��Z��?Dan Tanner�q�个31岁的德克萨斯软�g工程师说�Q�他通过MySpace重新联系��C��高中和大学同学�?不过�Q�MySpace�Ҏ��们的用处很大�Q�因此我们可以原谅偶发的故障和错误�? Tanner��_��如果站点某天出现故障甚至崩溃�Q�恢复以后他�q�是会��l��用�?

　　�q�就是�ؓ什么Drew在论坛里咆哮�Ӟ��大部分用户都告诉他应该保持��^静，如果�{�几分钟�Q�问题就会解决的原因。Drew无法�q�静�Q�他写道�Q?我已 �l�两�ơ给MySpace发邮�Ӟ��而它说一��时前还是正常的�Q�现在出了点问题……完全是一堆废话�?另一个用户回复说�Q?毕竟它是免费的�?"Benedetto坦承100%的可靠性不是他的目标�?它不是银行，而是一个免费的服务�?他说�?

　　换句话说�Q�MySpace的偶发故障可能造成某�h最后更新的个�h资料丢失�Q�但�q�不意味着�|�站弄丢了用��L��p��?关键是要认识刎ͼ�与保证站�Ҏ�?能相比，丢失��许数据的故障是可接受的�?Benedetto说。所以，MySpace甘冒丢失2分钟�?��时内�Q意点数据的危险，在SQL Server配置里�g长了"checkpoint"操作--它将待更新数据永久记录到��盘--的间隔时��_��因�ؓ�q�样做可以加快数据库的运行�?

　　Benedetto��_��同样�Q�开发�h员还�l�常在几个小时内��完成构思、编码、测试和发布全过�E�。这有引入Bug的风险，但这样做可以更快实现�?功能。而且�Q�因��行大规模真实��试不具可行性，他们的测试通常是在仅以部分�z�跃用户为对象，且用户对软�g新功能和改进不知��里的情况下�q�行的。因��Z��?上不可能做真实的加蝲��试�Q�他们做的测试通常都是针对站点�?

　　"我们犯过大量错误�Q?Benedetto��_��"但到头来�Q�我认�ؓ我们做对的还是比做错的多�?
　　七�?从LiveJournal后台发展看大规模�|�站性能优化�Ҏ��

　　LiveJournal�?9�q�始于校园中的项目，几个人出于爱好做了这样一个应用，以实��C��下功能：

　　博客�Q�论�?

　　�C�会性网�l�，扑ֈ�朋友

　　聚合�Q�把朋友的文章聚合在一�?

　　LiveJournal采用了大量的开源��Y�Ӟ��甚至它本�w�也是一个开源��Y件�?

　　在上�U�后�Q�LiveJournal实现了非常快速的增长�Q?

　　2004�q?月䆾�Q?80万注册用戗��?

　　2005�q?月䆾�Q?80万注册用戗��?

　　2005�q?月䆾�Q?90万注册用戗��?

　　辑ֈ�了每�U�钟上千�ơ的��面��h��及处理�?

　　使用了大量MySQL服务器�?

　　使用了大量通用�l��g�?

　　二、LiveJournal架构现状概况

　　

　　

　　

　　三、从LiveJournal发展中学�?/strong>

　　LiveJournal�?台服务器发展�?00台服务器�Q�这其中�l�历了无数的伤痛�Q�但同时也摸索出了解册��些问题的�Ҏ��Q�通过对LiveJournal的学习，可以让我们避免LJ曄��犯过的错误，�q�且从一开始就对系�l�进行良好的设计�Q�以避免后期的痛苦�?

　　下面我们一步一步看LJ发展的脚步�?

　　1、一台服务器

　　一台别人捐助的服务�?强烈ft)�Q�LJ最初就跑在上面�Q�就像Google开始时候用的破服务器一��P��值得我们��敬。这个阶�D�，LJ的�h以惊人的速度熟悉�?Unix的操作管理，服务器性能出现�q�问题，不过�q�好�Q�可以通过一些小修小改应付过厅R��在�q�个阶段里LJ把CGI升��C��FastCGI�?

　　最�l�问题出��C��Q�网站越来越慢，已经无法通过优过化来解决的地步，需要更多的服务器，�q�时LJ开始提供付�Ҏ��务，可能是想通过�q�些钱来购买新的服务器，以解军_��时的困境�?

　　毫无疑问�Q�当时LJ存在巨大的单炚w��题，所有的东西都在那台服务器的铁皮盒子里装着�?

　　

　　2、两台服务器

　　用付�Ҏ��务赚来的钱LJ��C��两台服务器：一台叫做Kenny的Dell 6U机器用于提供Web服务�Q�一台叫做Cartman的Dell 6U服务器用于提供数据库服务�?

　　

　　

　　

　　LJ有了更大的磁盘，更多的计��资源。但同时�|�络�l�构�q�是非常��单，每台机器两块�|�卡�Q�Cartman通过内网为Kenny提供MySQL数据库服务�?

　　暂时解决了负载的问题�Q�新的问题又出现了：

　　原来的一个单点变成了两个单点�?

　　没有冷备份或热备份�?

　　�|�站速度慢的问题又开始出��C��Q�没办法�Q�增长太快了�?

　　Web服务器上CPU辑ֈ�上限�Q�需要更多的Web服务器�?

　　3、四台服务器

　　又买了两収ͼ�Kyle和Stan�Q�这�ơ都�?U的，都用于提供Web服务。目前LJ一共有3台Web服务器和一台数据库服务器。这旉��要在3台Web服务器上�q�行负蝲均横�?

　　

　　

　　

　　LJ把Kenny用于外部的网养I��使用mod_backhand�q�行负蝲均横�?

　　然后问题又出��C��Q?

　　单点故障。数据库和用于做�|�关的Web服务器都是单点，一旦�Q何一台机器出现问题将��D��所有服务不可用。虽然用于做�|�关的Web服务器可以通过保持心蟩同步�q�速切换，但还是无法解��x��据库的单点，LJ当时也没做这个�?

　　�|�站又变慢了�Q�这�ơ是因�ؓIO和数据库的问题，问题是怎么往应用里面��d��数据库呢�Q?

　　4、五台服务器

　　又买了一台数据库服务器。在两台数据库服务器上��用了数据库同�?Mysql支持的Master-Slave模式)�Q�写操作全部针对��L��据库 �Q�通过Binlog�Q�主服务器上的写操作可以�q�速同步到从服务器上）�Q�读操作在两个数据库上同时进�?也算是负载均横的一�U�吧)�?

　　

　　

　　

　　实现同步时要注意几个事项�Q?

　　��L��作数据库选择��法处理�Q�要选一个当前负载轻一点的数据库�?

　　在从数据库服务器上只能进行读操作

　　准备好应对同步过�E�中的�g�q�，处理不好可能会导致数据库同步的中断。只需要对写操作进行判断即可，��L��作不存在同步问题�?

　　5、更多服务器

　　有钱了，当然要多��C��服务器。部�|�后快了没多久，又开始慢了。这�ơ有更多的Web服务器，更多的数据库服务器，存在 IO与CPU争用。于是采用了BIG-IP作�ؓ负蝲均衡解决�Ҏ��?

　　

　　

　　

　　6、现在我们在哪里�Q?/strong>

　　

　　

　　

　　现在服务器基本上够了�Q�但性能�q�是有问题，原因出在架构上�?

　　数据库的架构是最大的问题。由于增加的数据库都是以Slave模式��d��到应用内�Q�这样唯一的好处就是将��L��作分布到了多台机器，但这样带来的后果��是写操作被大量分发�Q�每台机器都要执行，服务器越多，��费��p��大，随着写操作的增加�Q�用于服务读操作的资源越来越��?

　　

　　�׃��台分布到两台

　　

　　

　　

　　最�l�效�?

　　现在我们发现�Q�我们�ƈ不需要把�q�些数据在如此多的服务器上都保留一份。服务器上已�l�做了RAID�Q�数据库也进行了备䆾�Q�这么多的备份完全是对资源的��费�Q�属于冗余极端过度。那��Z��么不把数据分布存储呢�Q?

　　问题发现了，开始考虑如何解决。现在要做的��是把不同用��L��数据分布��C��同的服务器上�q�行存储�Q�以实现数据的分布式存储�Q?strong>让每台机器只为相对固定的用户服务�Q�以实现�q��的架构和良好的可扩展性�?

　　��Z��实现用户分组�Q�我们需要�ؓ每一个用户分配一个组标记�Q�用于标记此用户的数据存攑֜�哪一�l�数据库服务器中。每�l�数据库�׃��个master及几个slave�l�成�Q��ƈ且slave的数量在2-3収ͼ�以实现系�l�资源的最合理分配�Q�既保证数据��L��作分布，又避免数据过度冗余以及同步操作对�pȝ��资源的过度消耗�?

　　

　　

　　

　　�׃��収ͼ�一�l�）中心服务器提供用户分�l�控制。所有用��L��分组信息都存储在�q�台机器上，所有针对用��L��操作需要先查询�q�台机器得到用户的组��P��然后再到相应的数据库�l�中获取数据�?

　　�q�样的用��h��构与目前LJ的架构已�l�很相像了�?

　　在具体的实现旉��要注意几个问题：

　　在数据库�l�内不要使用自增ID�Q�以便于以后在数据库�l�之间迁�Uȝ��P��以实现更合理的I/O�Q�磁盘空间及负蝲分布�?

　　��userid�Q�postid存储在全局服务器上�Q�可以��用自增，数据库组中的相应值必��M��全局服务器上的��gؓ准。全局服务器上使用事务型数据库InnoDB�?

　　在数据库�l�之间迁�Uȝ��h��要万分小心，当迁�U�L��用户不能有写操作�?

　　7、现在我们在哪里

　　

　　

　　

　　问题�Q?

　　一个全局��L��务器�Q�挂掉的话所有用��h��册及写操作就挂掉�?

　　每个数据库组一个主服务器，挂掉的话�q�组用户的写操作��挂掉�?

　　数据库组从服务器挂掉的话会导致其它服务器负蝲�q�大�?

　　对于Master-Slave模式的单炚w��题，LJ采取了Master-Master模式来解冟뀂所谓Master-Master实际上是人工实现的，�q�不是由MySQL直接提供的，实际上也��是两台机器同时是Master�Q�也同时是Slave�Q�互相同步�?

　　Master-Master实现旉��要注意：

　　一个Master出错后恢复同步，最好由服务器自动完成�?

　　数字分配�Q�由于同时在两台机器上写�Q�有些ID可能会冲�H��?

　　解决�Ҏ��Q?

　　奇偶数分配ID�Q�一台机器上写奇敎ͼ�一台机器上写偶�?

　　通过全局服务器进行分�?LJ采用的做�?�?

　　Master-Master模式�q�有一�U�用法，�q�种�Ҏ��与前一�U�相比，仍然保持两台机器的同步，但只有一台机器提供服务（��d��写）�Q�在每天晚上的时候进行轮换，或者出现问题的时候进行切换�?

　　8、现在我们在哪里

　　

　　

　　

　　现在插播一条广告，MyISAM VS InnoDB�?

　　使用InnoDB�Q?

　　支持事务

　　需要做更多的配�|�，不过值得�Q�可以更安全的存储数据，以及得到更快的速度�?

　　使用MyISAM�Q?

　　记录日志�Q�LJ用它来记�|�络讉K��日志�Q?

　　存储只读静态数据，��_��快�?

　　�q�发性很差，无法同时��d��数据�Q�添加数据可以）

　　MySQL非正常关闭或��L��时会��D��索引错误�Q�需要��用myisamchk修复�Q�而且当访问量大时出现非常频繁�?

　　9、缓�?/strong>

　　��d��我写�q�一��文章介�l�memcached�Q�它��是由LJ的团队开发的一�Ƅ��存工��P��以key-value的方式将数据存储到分布的内存中。LJ�~�存的数据：

　　12台独立服务器�Q�不是捐赠的�Q?

　　28个实�?

　　30GB��d��?

　　90-93%的命中率�Q�用�q�squid的�h可能知道�Q�squid内存加磁盘的命中率大概在70-80%�Q?

　　如何建立�~�存�{�略�Q?

　　想缓存所有的东西�Q�那是不可能的，我们只需要缓存已�l�或者可能导致系�l�瓶颈的地方�Q�最大程度的提交�pȝ��q�行效率。通过对MySQL的日志的分析我们可以扑ֈ��~�存的对象�?

　　�~�存的缺点？

　　没有完美的事物，�~�存也有�~�点�Q?

　　增大开发量�Q�需要针对缓存处理编写特�D�的代码�?

　　��理隑ֺ�增加�Q�需要更多�h参与�pȝ��l�护�?

　　当然大内存也需要钱�?

　　10、Web讉K��负蝲均衡

　　在数据包�U�别使用BIG-IP�Q�但BIG-IP�q�不知道我们内部的处理机�Ӟ��无法判断由哪台服务器对这些请求进行处理。反向代理�ƈ不能很好的�v��C��用，不是已经够快了，��是达不到我们想要的效果�?

　　所以，LJ又开发了Perlbal。特点：

　　快，��，可管理的http web 服务�?代理

　　可以在内部进行�{�?

　　使用Perl开�?

　　单线�E�，异步�Q�基于事�Ӟ��使用epoll , kqueue

　　支持Console��理与http�q�程��理�Q�支持动态配�|�加�?

　　多种模式�Q�web服务器，反向代理�Q�插�?

　　支持插�g�Q�GIF/PNG互换�Q?

　　11、MogileFS

　　LJ使用开源的MogileFS作�ؓ分布式文件存储系�l�。MogileFS使用非常��单，它的主要设计思想是：

　　文�g属于�c�（�c�L��最��的复制单位�Q?

　　跟踪文�g存储位置

　　在不同主��Z��存储

　　使用MySQL集群�l�一存储分布信息

　　大容易廉��L��?

　　到目前�ؓ止就�q�么多了�Q�更多文档可以在http://www.danga.com/words/扑ֈ�。Danga.com�?LiveJournal.com的同学们拿这个文��参加了两次MySQL Con�Q�两�ơOS Con�Q�以及众多的其它会议�Q�无�U�的把他们的�l�验分��n出来�Q�值得我们学习。在web2.0时代快速开发得到大家越来越多的重视�Q�但良好的设计仍是每一个应用的基础�Q�希望web2.0们在成长为Top500�|�站的�\上，不要因�ؓ架构�ȝ��了网站的发展�?

　　八�?/strong>说说大型高�ƈ发高负蝲�|�站的系�l�架�?/strong>

　　我在Cernet做过拨号接入�q�_��的搭建，而后在Yahoo3721负蝲搜烦引擎前端�q�_��开发，又在猫扑处理�q�大型社区猫扑大杂烩的架构升�U�等工作�Q�同时自己接触和开发过不少大中型网站的模块�Q�因此在大型�|�站应对高负载和�q�发的解��x��案上有一些积累和�l�验(HOHO..nb man )�Q�可以和大家一��h��讨一下�?

　　一个小型的�|�站�Q�比如个人网站，可以使用最��单的html静态页面就实现了，配合一些图片达到美化效果，所有的��面均存攑֜�一个目录下�Q�这��L�� |�站对系�l�架构、性能的要求都很简单，随着互联�|�业务的不断丰富�Q�网站相关的技术经�q�这些年的发展，已经�l�分到很�l�的�Ҏ��面面�Q�尤其对于大型网站来��_��所采用的技术更是涉及面非常�q�，从硬件到软�g、编�E�语�a�、数据库、WebServer、防火墙�{�各个领域都有了很高的要求，已经不是原来��单的html静�?�|�站所能比拟的�?

　　大型�|�站�Q�比如门��L��站。在面对大量用户讉K��、高�q�发��h��斚w��Q�基本的解决�Ҏ��集中在这样几个环节：使用高性能的服务器、高性能的数据库、高效率的编�E�语�a�、还有高性能的Web容器�?/strong>但是除了�q�几个方面，�q�没法根本解军_��型网站面临的高负载和高�ƈ发问题�?

　　上面提供的几个解��x��\在一定程度上也意味着更大的投入，�q�且�q�样的解��x��\具备瓉��Q�没有很好的扩展性，下面我从低成本、高性能和高扩张性的角度来说说我的一些经验�?

　　1、HTML静态化

　　其实大家都知道，效率最高、消耗最��的��是�U�静态化的html��面�Q�所以我们尽可能使我们的�|�站上的��面采用静态页面来实现�Q�这个最��单的�Ҏ�� 其实也是最有效的方法。但是对于大量内容�ƈ且频�J�更新的�|�站�Q�我们无法全部手动去挨个实现�Q?strong>于是出现了我们常见的信息发布�pȝ��CMS�Q�像我们常访问的各个门户站点的新闻频道，甚至他们的其他频道，都是通过信息发布�pȝ��来管理和实现的，信息发布�pȝ��可以实现最��单的信息录入自动生成静态页面，�q�能具备频道��?理、权限管理、自动抓取等功能�Q�对于一个大型网站来��_��拥有一套高效、可��理的CMS是必不可��的�?

　　除了门户和信息发布类型的�|�站�Q�对于交互性要求很高的�C�֌��c�d��|�站来说�Q�尽可能的静态化也是提高性能的必要手�D�，��社区内的帖子、文章进行实时的静态化�Q�有更新的时候再重新静态化也是大量使用的策略，像Mop的大杂烩��是使用了这��L��{�略�Q�网易社区等也是如此�?

　　同时�Q�html静态化也是某些�~�存�{�略使用的手�D�，对于�pȝ��中频�J��用数据库查询但是内容更新很小的应用，可以考虑使用html静态化来实玎ͼ� 比如论坛中论坛的公用讄��信息�Q�这些信息目前的��L��论坛都可以进行后台管理�ƈ且存储再数据库中�Q�这些信息其实大量被前台�E�序调用�Q�但是更新频率很��，可以考虑��这部分内容�q�行后台更新的时候进行静态化�Q�这样避免了大量的数据库讉K��h��?

　　2、图片服务器分离

　　大家知道�Q?strong>对于Web服务器来��_��不管是Apache、IIS�q�是其他容器�Q�图片是最消耗资源的�Q�于是我们有必要��图片与��面�q�行分离�Q�这是基本上大型�|�站都会采用的策略，他们都有独立的图片服务器�Q�甚臛_��多台囄��服务器。这��L��架构可以降低提供��面讉K��h��的服务器�pȝ��压力�Q��ƈ且可以保证系�l?不会因�ؓ囄��问题而崩溃，在应用服务器和图片服务器上，可以�q�行不同的配�|�优化，比如apache在配�|�ContentType的时候可以尽量少支持�Q�尽可能��的LoadModule�Q�保证更高的�pȝ��消耗和执行效率�?

　　3、数据库集群和库表散�?

　　大型�|�站都有复杂的应用，�q�些应用必须使用数据库，那么在面对大量访问的时候，数据库的瓉��很快��p��昄��出来�Q�这时一台数据库��很快无法满��_��用，于是我们需要��用数据库集群或者库表散列�?

　　在数据库集群斚w��Q�很多数据库都有自己的解��x��案，Oracle、Sybase�{�都有很好的�Ҏ��Q�常用的MySQL提供的Master/Slave也是�c�M��的方案，您��用了什么样的DB�Q�就参考相应的解决�Ҏ��来实施即可�?

　　上面提到的数据库集群�׃��在架构、成本、扩张性方面都会受到所采用DB�c�d��的限�Ӟ��于是我们需要从应用�E�序的角度来考虑改善�pȝ��架构�Q?strong>库表散列是常用�ƈ且最有效的解��x��?/strong>。我们在应用�E�序中安装业务和应用或者功能模块将数据库进行分��，不同的模块对应不同的数据库或者表�Q�再按照一定的�{�略�Ҏ��?��面或者功能进行更��的数据库散列，比如用户表，按照用户ID�q�行表散列，�q�样��p��够低成本的提升系�l�的性能�q�且有很好的扩展性。sohu的论坛就是采�?了这��L��架构�Q?strong>��论坛的用户、设�|�、帖子等信息�q�行数据库分��?/strong>�Q�然后对帖子、用��h��照板块和ID�q�行散列数据库和表，最�l�可以在配置文�g中进行简单的配置便能让系�l�随时增加一��C��成本的数据库�q�来补充�pȝ��性能�?

　　4、缓�?

　　�~�存一词搞技术的都接触过�Q�很多地方用到缓存。网站架构和�|�站开发中的缓存也是非帔R��要。这里先讲述最基本的两�U�缓存。高�U�和分布式的�~�存在后面讲�q��?

　　架构斚w��的缓存，对Apache比较熟悉的�h都能知道Apache提供了自��q��~�存模块�Q�也可以使用外加的Squid模块�q�行�~�存�Q�这两种方式均可以有效的提高Apache的访问响应能力�?

　　�|�站�E�序开发方面的�~�存�Q�Linux上提供的Memory Cache是常用的�~�存接口�Q�可以在web开发中使用�Q�比如用Java开发的时候就可以调用MemoryCache对一些数据进行缓存和通讯�׃�n�Q�一些大型社��Z��用了�q�样的架构。另外，在��用web语言开发的时候，各种语言基本都有自己的缓存模块和�Ҏ��Q�PHP有Pear的Cache模块�Q�Java��更�?了，.net不是很熟悉，�怿�也肯定有�?

　　5、镜�?

　　镜像是大型网站常采用的提高性能和数据安全性的方式�Q�镜像的技术可以解决不同网�l�接入商和地域带来的用户讉K��速度差异�Q�比如ChinaNet�?EduNet之间的差异就促��了很多网站在教育�|�内搭徏镜像站点�Q�数据进行定时更新或者实时更新。在镜像的细节技术方面，�q�里不阐�q�太深，有很多专业的�?成的解决架构和��品可选。也有廉��L��通过软�g实现的思�\�Q�比如Linux上的rsync�{�工兗��?

　　6、负载均�?

　　负蝲均衡��是大型�|�站解决高负药��问和大量�q�发��h��采用的终极解军_��法�?

　　负蝲均衡技术发展了多年�Q�有很多专业的服务提供商和��品可以选择�Q�我个�h接触�q�一些解��x��法，其中有两个架构可以给大家做参考�?

　　��g四层交换

　　�W�四层交换��用第三层和第四层信息包的报头信息�Q�根据应用区间识别业务流�Q�将整个区间�D늚�业务��分配到合适的应用服务器进行处理。　�W�四层交�?功能��p��是虚IP�Q�指向物理服务器。它传输的业务服从的协议多种多样�Q�有HTTP、FTP、NFS、Telnet或其他协议。这些业务在物理服务器基�� 上，需要复杂的载量�q��法。在IP世界�Q�业务类型由�l�端TCP或UDP端口地址来决定，在第四层交换中的应用区间则由源端和终端IP地址、TCP�?UDP端口共同军_��?

　　在硬件四层交换��品领域，有一些知名的产品可以选择�Q�比如Alteon、F5�{�，�q�些产品很昂贵，但是物有所��|��能够提供非常优秀的性能和很灉|��的管理能力。Yahoo中国当初接近2000台服务器使用了三四台Alteon��搞定了�?

　　软�g四层交换

　　大家知道了硬件四层交换机的原理后�Q�基于OSI模型来实现的软�g四层交换也就应运而生�Q�这��L��解决�Ҏ��实现的原理一��_��不过性能�E�差。但是满��一定量的压力还是游刃有余的�Q�有��软�g实现方式其实更灵�z�，处理能力完全看你配置的熟悉能力�?

　　软�g四层交换我们可以使用Linux上常用的LVS来解冻I��LVS��是Linux Virtual Server�Q�他提供了基于心跳线heartbeat的实时灾隑ֺ�对解��x��案，提高�pȝ��的鲁��性，同时可供了灵�zȝ��虚拟VIP配置和管理功能，可以同时�?��_��U�应用需求，�q�对于分布式的系�l�来说必不可��?

　　一个典型的使用负蝲均衡的策略就是，在��Y件或者硬件四层交换的基础上搭建squid集群�Q�这�U�思�\在很多大型网站包括搜索引擎上被采用，�q�样�?架构低成本、高性能�q�有很强的扩张性，随时往架构里面增减节点都非常容易。这��L��架构我准备空了专门详�l�整理一下和大家探讨�?

对于大型�|�站来说�Q�前面提到的每个�Ҏ��可能都会被同时��用到�Q�我�q�里介绍得比较浅显，具体实现�q�程中很多细节还需要大家慢慢熟悉和体会�Q�有时一个很��的squid参数或者apache参数讄��Q�对于系�l�性能的媄响就会很大，希望大家一赯��论，辑ֈ�抛砖引玉之效�?/p>

void 2009-08-14 16:23 发表评论

lvs -> squid - > nginx -> app server -> db

void — Mon, 22 Jun 2009 14:08:00 GMT

void 2009-06-22 22:08 发表评论

�|�站架构�Q�页面静态化�Q�图片服务器分离,负蝲均衡�Q�方案全解析

void — Fri, 17 Apr 2009 13:04:00 GMT

1、HTML静态化其实大家都知道，效率最高、消耗最��的��是�U�静态化的html��面�Q�所以我们尽可能使我们的�|�站上的��面采用静态页面来实现�Q�这个最��单的�Ҏ��其实也是最有效的方法。但是对于大量内容�ƈ且频�J�更新的�|�站�Q�我们无法全部手动去挨个实现�Q�于是出��C��我们常见的信息发布系�l�CMS�Q�像我们常访问的各个门户站点的新闻频道，甚至他们的其他频道，都是通过信息发布�pȝ��来管理和实现的，信息发布�pȝ��可以实现最��单的信息录入自动生成静态页面，�q�能具备频道��理、权限管理、自动抓取等功能�Q�对于一个大型网站来��_��拥有一套高效、可��理的CMS是必不可��的。除了门户和信息发布�c�d��的网站，对于交互性要求很高的�C�֌��c�d��|�站来说�Q�尽可能的静态化也是提高性能的必要手�D�，��社区内的帖子、文章进行实时的静态化�Q�有更新的时候再重新静态化也是大量使用的策略，像Mop的大杂烩��是使用了这��L��{�略�Q�网易社区等也是如此。同�Ӟ��html静态化也是某些�~�存�{�略使用的手�D�，对于�pȝ��中频�J��用数据库查询但是内容更新很小的应用，可以考虑使用html静态化来实玎ͼ�比如论坛中论坛的公用讄��信息�Q�这些信息目前的��L��论坛都可以进行后台管理�ƈ且存储再数据库中�Q�这些信息其实大量被前台�E�序调用�Q�但是更新频率很��，可以考虑��这部分内容�q�行后台更新的时候进行静态化�Q�这样避免了大量的数据库讉K��h��?

2、图片服务器分离大家知道�Q�对于Web服务器来��_��不管是Apache、IIS�q�是其他容器�Q�图片是最消耗资源的�Q�于是我们有必要��图片与��面�q�行分离�Q�这是基本上大型�|�站都会采用的策略，他们都有独立的图片服务器�Q�甚臛_��多台囄��服务器。这��L��架构可以降低提供��面讉K��h��的服务器�pȝ��压力�Q��ƈ且可以保证系�l�不会因为图片问题而崩溃，在应用服务器和图片服务器上，可以�q�行不同的配�|�优化，比如apache在配�|�ContentType的时候可以尽量少支持�Q�尽可能��的LoadModule�Q�保证更高的�pȝ��消耗和执行效率�?

3、数据库集群和库表散列大型网站都有复杂的应用�Q�这些应用必��M��用数据库�Q�那么在面对大量讉K��的时候，数据库的瓉��很快��p��昄��出来�Q�这时一台数据库��很快无法满��_��用，于是我们需要��用数据库集群或者库表散列。在数据库集��方面，很多数据库都有自��q��解决�Ҏ��Q�Oracle、Sybase�{�都有很好的�Ҏ��Q�常用的MySQL提供的Master/Slave也是�c�M��的方案，您��用了什么样的DB�Q�就参考相应的解决�Ҏ��来实施即可。上面提到的数据库集��由于在架构、成本、扩张性方面都会受到所采用DB�c�d��的限�Ӟ��于是我们需要从应用�E�序的角度来考虑改善�pȝ��架构�Q�库表散列是常用�q�且最有效的解��x��案。我们在应用�E�序中安装业务和应用或者功能模块将数据库进行分��，不同的模块对应不同的数据库或者表�Q�再按照一定的�{�略�Ҏ��个页面或者功能进行更��的数据库散列，比如用户表，按照用户ID�q�行表散列，�q�样��p��够低成本的提升系�l�的性能�q�且有很好的扩展性。sohu的论坛就是采用了�q�样的架构，��论坛的用户、设�|�、帖子等信息�q�行数据库分��，然后对帖子、用��h��照板块和ID�q�行散列数据库和表，最�l�可以在配置文�g中进行简单的配置便能让系�l�随时增加一��C��成本的数据库�q�来补充�pȝ��性能�?

4、缓存缓存一词搞技术的都接触过�Q�很多地方用到缓存。网站架构和�|�站开发中的缓存也是非帔R��要。这里先讲述最基本的两�U�缓存。高�U�和分布式的�~�存在后面讲�q�。架构方面的�~�存�Q�对Apache比较熟悉的�h都能知道Apache提供了自��q��~�存模块�Q�也可以使用外加的Squid模块�q�行�~�存�Q�这两种方式均可以有效的提高Apache的访问响应能力。网站程序开发方面的�~�存�Q�Linux上提供的Memory Cache是常用的�~�存接口�Q�可以在web开发中使用�Q�比如用Java开发的时候就可以调用MemoryCache对一些数据进行缓存和通讯�׃�n�Q�一些大型社��Z��用了�q�样的架构。另外，在��用web语言开发的时候，各种语言基本都有自己的缓存模块和�Ҏ��Q�PHP有Pear的Cache模块�Q�Java��更多了�Q?net不是很熟悉，�怿�也肯定有�?

5、镜像镜像是大型�|�站帔R��用的提高性能和数据安全性的方式�Q�镜像的技术可以解决不同网�l�接入商和地域带来的用户讉K��速度差异�Q�比如ChinaNet和EduNet之间的差异就促��了很多网站在教育�|�内搭徏镜像站点�Q�数据进行定时更新或者实时更新。在镜像的细节技术方面，�q�里不阐�q�太深，有很多专业的现成的解��x��构和产品可选。也有廉��L��通过软�g实现的思�\�Q�比如Linux上的rsync�{�工兗��?
6、负载均衡负载均衡将是大型网站解决高负荷讉K��和大量�ƈ发请求采用的�l�极解决办法。负载均衡技术发展了多年�Q�有很多专业的服务提供商和��品可以选择�Q�我个�h接触�q�一些解��x��法，其中有两个架构可以给大家做参考�?

7、硬件四层交换第四层交换使用�W�三层和�W�四层信息包的报头信息，�Ҏ��应用区间识别业务��，��整个区间段的业务流分配到合适的应用服务器进行处理。　�W�四层交换功能就象是�?IP�Q�指向物理服务器。它传输的业务服从的协议多种多样�Q�有HTTP、FTP、NFS、Telnet或其他协议。这些业务在物理服务器基��上，需要复杂的载量�q��法。在IP世界�Q�业务类型由�l�端TCP或UDP端口地址来决定，在第四层交换中的应用区间则由源端和终端IP地址、TCP和UDP端口共同军_��。在��g四层交换产品领域�Q�有一些知名的产品可以选择�Q�比如Alteon、F5�{�，�q�些产品很昂贵，但是物有所��|��能够提供非常优秀的性能和很灉|��的管理能力。Yahoo中国当初接近2000台服务器使用了三四台Alteon��搞定了

�?、��Y件四层交换大家知道了��g四层交换机的原理后，��Z��OSI模型来实现的软�g四层交换也就应运而生�Q�这��L��解决�Ҏ��实现的原理一��_��不过性能�E�差。但是满��一定量的压力还是游刃有余的�Q�有��软�g实现方式其实更灵�z�，处理能力完全看你配置的熟悉能力。��Y件四层交换我们可以��用Linux上常用的LVS来解冻I��LVS��是Linux Virtual Server�Q�他提供了基于心跳线heartbeat的实时灾隑ֺ�对解��x��案，提高�pȝ��的鲁��性，同时可供了灵�zȝ��虚拟VIP配置和管理功能，可以同时满��多种应用需求，�q�对于分布式的系�l�来说必不可��。一个典型的使用负蝲均衡的策略就是，在��Y件或者硬件四层交换的基础上搭建squid集群�Q�这�U�思�\在很多大型网站包括搜索引擎上被采用，�q�样的架构低成本、高性能�q�有很强的扩张性，随时往架构里面增减节点都非常容易。这��L��架构我准备空了专门详�l�整理一下和大家探讨。对于大型网站来��_��前面提到的每个方法可能都会被同时使用刎ͼ�我这里介�l�得比较��显�Q�具体实现过�E�中很多�l�节�q�需要大家慢慢熟悉和体会�Q�有时一个很��的squid参数或者apache参数讄��Q�对于系�l�性能的媄响就会很大，希望大家一赯��论，辑ֈ�抛砖引玉之效�?

用squid做web cache server�Q�而apache在squid的后面提供真正的web服务。当然��用这��L��架构必须要保证主��上大部分都是静态页面。这��需要程序员的配合将��面在反馈给客户端之前将��面全部转换成静态页面�?
基本看出sina和sohu对于频道�{�栏目都用了相同的技术，即squid来监听这些IP�?0端口�Q�而真正的web server来监听另外一个端口。从用户的感觉上来说不会有�Q何的区别�Q�而相对于��web server直接和客��L��q�在一��L��方式�Q�这��L��方式明显的节省的带宽和服务器。用戯��问的速度感觉也会更快�?

http://www.dbanotes.net/arch/yupoo_arch.html

带宽�Q?000M/S (参�?
服务器数量：60 台左�?
Web服务器：Lighttpd, Apache, nginx
应用服务器：Tomcat
其他�Q�Python, Java, MogileFS 、ImageMagick �{?

关于 Squid �?Tomcat

Squid �?Tomcat ��g��?Web 2.0 站点的架构中较少看到。我首先是对 Squid 有点疑问�Q�对此阿华的解释�?目前暂时�q�没扑ֈ�效率�?Squid 高的�~�存�pȝ��Q�原来命中率的确很差�Q�后来在 Squid 前又装了�?Lighttpd, ��Z�� url �?hash, 同一个图片始�l�会到同一�?squid 去，所以命中率��d��提高�?

对于应用服务器层�?Tomcat�Q�现�?Yupoo! 技术�h员也在逐渐用其他轻量��的东西替代，�?YPWS/YPFS 现在已经�?Python �q�行开发了�?

名次解释�Q?

· YPWS--Yupoo Web Server YPWS 是用 Python开发的一个小�?Web 服务器，提供基本�?Web 服务外，可以增加针对用户、图片、外铄��站显�C�的逻辑判断�Q�可以安装于��M��有空闲资源的服务器中�Q�遇到性能瓉��时方便横向扩展�?

· YPFS--Yupoo File System �?YPWS �c�M��Q�YPFS 也是��Z��q�个 Web 服务器上开发的囄��上传服务器�?

【Updated: 有网友留�a�质疑 Python 的效率，Yupoo 老大刘��^阛_�� del.icio.us 上写�?"YPWS用Python自己写的�Q�每台机器每�U�可以处�?94个请�? 现在压力几乎都在10�Q�以�?�?

囄��处理�?

接下来的 Image Process Server 负责处理用户上传的图片。��用的软�g包也�?ImageMagick�Q�在上次存储升��的同�Ӟ��对于锐化的比率也调整�q�了(我个人感觉，效果的确好了很多)�?#8221;Magickd“ 是图像处理的一个远�E�接口服务，可以安装在�Q何有�I�闲 CPU资源的机器上�Q�类�?Memcached的服务方式�?

我们知道 Flickr 的羃略图功能原来是用 ImageMagick 软�g包的�Q�后来被雅虎收购后出于版权原因而不用了�Q?�Q�；EXIF �?IPTC Flicke 是用 Perl 抽取的，我是非常�� Yupoo! 针对 EXIF 做些文章�Q�这也是潜在产生受益的一个重炏V�?

囄��存储�?

原来 Yupoo! 的存储采用了��盘阵列柜，��Z�� NFS 方式的，随着数据量的增大�Q?#8221;Yupoo! 开发部�?7�q?月䆾��开始着手研�I�一套大定w��的、能满�� Yupoo! 今后发展需要的、安全可靠的存储�pȝ��“�Q�看�?Yupoo! �pȝ��比较有信心，也是满怀期待的，毕竟�q�要支撑�?TB 计算的�v量图片的存储和管理。我们知道，一张图片除了原囑֤��Q�还有不同尺寸的�Q�这些图片统一存储�?MogileFS 中�?

对于其他部分�Q�常见的 Web 2.0 �|�站必须软�g都能看到�Q�如 MySQL、Memcached 、Lighttpd �{�。Yupoo! 一斚w��采用不少相对比较成熟的开源��Y�Ӟ��一斚w��也在自行开发定刉��合自己的架构组件。这也是一�?Web 2.0 公司所必需要走的一个途径�?

非常感谢一�?Yupoo! 阿华对于技术信息的分��n�Q�技术是共通的。下一个能爆料是哪�?

--EOF--

lighttpd+squid�q�套�~�存是放在另外一个机房作为cdn的一个节点��用的�Q�图中没描绘清楚�Q�给大家带来不便了�?
squid前端用lighttpd没用nginx�Q�主要是用了�q�么久，没出啥大问题�Q�所以就没想其他的了�?
URL Hash的扩展性的��不好，能做的就是不��L��d��减服务器�Q�我们目前是5台服务器做一�l�hash.

我们现在用Python写的Web Server�Q�在效率斚w��Q�我可以�l�个��试数据�Q�根据目前的讉K��日志模拟讉K��试的结果是1台ypws,�q�_��每秒处理294个请�?加蝲所有的逻辑判断)�?
在可靠性上�Q�还不没具体的数据，目前�q�行1个多月还没有��M��异常�?

lvs每个节点上都装nginx�Q�主要是��Z��反向代理及处理静态内容，不过apache已显得不是那么必需�Q�准备逐渐��L��?

我们处理囄��都是��x��的，我们目前半数以上的服务器都装了magickd服务�Q�用来分担图片处理请求�?

http://www.dbanotes.net/review/tailrank_arch.html

每天��C��千万计的 Blog 内容中，实时的热�Ҏ��什�? Tailrank �q�个 Web 2.0 Startup 致力于回�{�这个问题�?

专门爆料�|�站架构�?Todd Hoff �?Kevin Burton �q�行了采�ѝ��于是我们能了解一�?Tailrank 架构的一些信息。每��时索引 2400 万的 Blog �?Feed�Q�内容处理能力�ؓ 160-200Mbps�Q�IO 写入大约�?0-15MBps。每个月要处�?52T 之多的原始数据。Tailrank 所用的爬虫现在已经成�ؓ一个独立��品：spinn3r�?

服务器硬�?

目前大约 15 台服务器�Q�CPU �?64 位的 Opteron。每��C��Z��挂两�?SATA 盘，�?RAID 0。据我所知，国内很多 Web 2.0 公司也用的是�c�M��的方式，SATA 盘容量达�Q�低廉�h��|��堪称不二之选。操作系�l�用的是 Debian Linux 。Web 服务器用 Apache 2.0�Q�Squid 做反向代理服务器�?

数据�?

Tailrank �?MySQL 数据库，联邦数据库�Ş式。存储引擎用 InnoDB�Q?数据�?500GB。Kevin Burton 也指��Z�� MySQL 5 在修了一�?多核模式下互斥锁的问�?This Bug?)。到数据库的JDBC 驱动�q�接池用 lbpool 做负载均衡。MySQL Slave 或�?Master的复制用 MySQLSlaveSync 来轻村֮�成。不�q�即使这��P��q�要��p�� 20�Q?的时间来折腾 DB�?

其他开攄��软�g

��M��一套系�l�都��M��开合适的 Profiling 工具�Q�Tailrank 也不利外�Q�针�?Java �E�序�?Benchmark �?Benchmark4j。Log 工具�?Log5j(不是 Log4j)。Tailrank 所用的大部分工具都是开攄��?

Tailrank 的一个比较大的竞争对手是 Techmeme�Q�虽然二者暂时看面向内容的侧重点有所不同。其实，最大的�Ҏ��q�是自己�Q�当需要挖掘的信息量越来越大，如果�_�և��q�及时的呈现�l�用户内容的成本会越来越高。从现在来看�Q�Tailrank ��预期目标还差的很远。期待罗马早日徏�?br />

YouTube架构学习

关键�? YouTube

原文: YouTube Architecture

YouTube发展�q�速，每天��过1亿的视频点击量，但只有很��h在维护站点和��保伸羃性�?

�q�_��
Apache
Python
Linux(SuSe)
MySQL
psyco�Q�一个动态的Python到C的编译器
lighttpd代替Apache做视频查�?

状�?
支持每天��过1亿的视频点击�?
成立�?005�q?�?
�?006�q?月达到每�?千万的视频点击量
�?006�q?月达到每�?亿的视频点击�?
2个系�l�管理员�Q?个�׾~�性��Y件架构师
2个��Y件开发工�E�师�Q?个网�l�工�E�师�Q?个DBA

处理飞速增长的��量

Java代码

1. while (true)

2. {

3. identify_and_fix_bottlenecks();

4. drink();

5. sleep();

6. notice_new_bottleneck();

7. }

while (true)

{

identify_and_fix_bottlenecks();

drink();

sleep();

notice_new_bottleneck();

}

每天�q�行该��@环多��?

Web服务�?
1�Q�NetScaler用于负蝲均衡和静态内容缓�?
2�Q��用mod_fast_cgi�q�行Apache
3�Q��用一个Python应用服务器来处理��h��的�\�?
4�Q�应用服务器与多个数据库和其他信息源交互来获取数据和格式化html��面
5�Q�一般可以通过��d��更多的机器来在Web层提高�׾~��?
6�Q�Python的Web层代码通常不是性能瓉��Q�大部分旉��d��在RPC
7�Q�Python允许快速而灵�zȝ��开发和部��v
8�Q�通常每个��面服务��于100毫秒的时�?
9�Q��用psyco(一个类��g��JIT�~�译器的动态的Python到C的编译器)来优化内部��@�?
10�Q�对于像加密�{�密集型CPU�z�d��Q��用C扩展
11�Q�对于一些开销昂贵的块使用预先生成�q�缓存的html
12�Q�数据库里��用行�U�缓�?
13�Q�缓存完整的Python对象
14�Q�有些数据被计算出来�q�发送给各个�E�序�Q�所以这些值缓存在本地内存中。这是个使用不当的策略。应用服务器里最快的�~�存��预先计��的值发送给所有服务器也花不了多少旉��。只需弄一个代理来监听更改�Q�预计算�Q�然后发送�?

视频服务
1�Q�花费包括带宽，��g和能源消�?
2�Q�每个视频由一个迷你集��来host�Q�每个视频被��过一台机器持�?
3�Q��用一个集��意味着�Q?
-更多的硬盘来持有内容意味着更快的速度
-failover。如果一台机器出故障了，另外的机器可以��l�服�?
-在线备䆾
4�Q��用lighttpd作�ؓWeb服务器来提供视频服务�Q?
-Apache开销太大
-使用epoll来等待多个fds
-从单�q�程配置转变为多�q�程配置来处理更多的�q�接
5�Q�大部分��行的内容移到CDN�Q?
-CDN在多个地方备份内容，�q�样内容��ȝ��h��q�的��Z��׃��更高
-CDN机器�l�常内存不��Q�因为内容太��行以致很少有内容进出内存的颠簸
6�Q�不太流行的内容(每天1-20��览�ơ数)在许多colo站点使用YouTube服务�?
-长尾效应。一个视频可以有多个播放�Q�但是许多视频正在播放。随机硬盘块被访�?
-在这�U�情况下�~�存不会很好�Q�所以花钱在更多的缓存上可能没太大意义�?
-调节RAID控制�q�注意其他低�U�问�?
-调节每台机器上的内存�Q�不要太多也不要太少

视频服务关键�?
1�Q�保持简单和廉�h
2�Q�保持简单网�l��\径，在内容和用户间不要有太多讑֤�
3�Q��用常用硬�Ӟ��昂贵的硬件很难找到帮助文�?
4�Q��用简单而常见的工具�Q��用构建在Linux里或之上的大部分工具
5�Q�很好的处理随机查找(SATA�Q�tweaks)

�~�略图服�?
1�Q�做到高效��o人惊奇的�?
2�Q�每个视频大�?张羃略图�Q�所以羃略图比视频多很多
3�Q�羃略图仅仅host在几个机器上
4�Q�持有一些小东西所遇到的问题：
-OS�U�别的大量的��盘查找和inode和页面缓存问�?
-单目录文仉��Ӟ��特别是Ext3�Q�后来移到多分层的结构。内�?.6的最�q�改�q�可能让Ext3允许大目录，但在一个文件系�l�里存储大量文�g不是个好��L��
-每秒大量的请求，因�ؓWeb��面可能在页面上昄��60个羃略图
-在这�U�高负蝲下Apache表现的非常糟�p?
-在Apache前端使用squid�Q�这�U�方式工作了一�D�|��_��但是�׃��负蝲�l�箋增加而以��p�|告终。它让每�U?00个请求变�?0�?
-��试使用lighttpd但是�׃��使用单线�E�它陷于困境。遇到多�q�程的问题，因�ؓ它们各自保持自己单独的缓�?
-如此多的囄��以致一台新机器只能接管24��时
-重启机器需�?-10��时来缓�?
5�Q��ؓ了解��x��有这些问题YouTube开始��用Google的BigTable�Q�一个分布式数据存储�Q?
-避免��文仉��题，因�ؓ它将文�g攉��C��?
-快，错误容忍
-更低的�g�q�，因�ؓ它��用分布式多��~�存�Q�该�~�存与多个不同collocation站点工作
-更多信息参考Google Architecture�Q�GoogleTalk Architecture和BigTable

数据�?
1�Q�早�?
-使用MySQL来存储元数据�Q�如用户�Q�tags和描�q?
-使用一整个10��盘的RAID 10来存储数�?
-依赖于信用卡所以YouTube�U�用��g
-YouTube�l�过一个常见的革命�Q�单服务器，然后单master和多read slaves�Q�然后数据库分区�Q�然后sharding方式
-痛苦与备份�g�q�。master数据库是多线�E�的�q�且�q�行在一个大机器上所以它可以处理许多工作�Q�slaves是单�U�程的�ƈ且通常�q�行在小一些的服务器上�q�且备䆾是异步的�Q�所以slaves会远�q�落后于master
-更新引�v�~�存失效�Q�硬盘的慢I/O��D��慢备�?
-使用备䆾架构需要花费大量的money来获得增加的写性能
-YouTube的一个解��x��案是通过把数据分成两个集��来��传输分��Z��先次序：一个视频查看池和一个一般的集群
2�Q�后�?
-数据库分�?
-分成shards�Q�不同的用户指定��C��同的shards
-扩散��d��
-更好的缓存位�|�意味着更少的IO
-��D��g减少30%
-备䆾延迟降低�?
-现在可以��L��提升数据库的伸羃�?

数据中心�{�略
1�Q�依赖于信用卡，所以最初只能��用受��主机提供商
2�Q�受��主机提供商不能提供伸羃性，不能控制��g或��用良好的�|�络协议
3�Q�YouTube改�ؓ使用colocation arrangement。现在YouTube可以自定义所有东西�ƈ且协定自��q��契约
4�Q��?�?个数据中心加CDN
5�Q�视频来自�Q意的数据中心�Q�不是最�q�的匚w��或其他什么。如果一个视频��够流行则�U�d��CDN
6�Q�依赖于视频带宽而不是真正的延迟。可以来自�Q何colo
7�Q�图片�g�q�很严重�Q�特别是当一个页面有60张图片时
8�Q��用BigTable��图片备份到不同的数据中心，代码查看谁是最�q�的

学到的东�?
1�Q�Stall for time。创造性和风险性的技巧让你在短期内解决问题而同时你会发现长期的解决�Ҏ��
2�Q�Proioritize。找��Z��的服务中核心的东西�ƈ对你的资源分��Z��先��?
3�Q�Pick your battles。别怕将你的核心服务分出厅R��YouTube使用CDN来分布它们最��行的内宏V��创��q��|�络��花费太多时间和太多money
4�Q�Keep it simple�Q�简单允�怽�更快的重新架构来回应问题
5�Q�Shard。Sharding帮助隔离存储�Q�CPU�Q�内存和IO�Q�不仅仅是获得更多的写性能
6�Q�Constant iteration on bottlenecks�Q?
-软�g�Q�DB�Q�缓�?
-OS�Q�硬盘I/O
-��g�Q�内存，RAID
7�Q�You succeed as a team。拥有一个跨��条律的了解整个�pȝ��q�知道系�l�内部是什么样的团队，如安装打印机�Q�安装机器，安装�|�络�{�等的�h。With a good team all things are possible�?br />
http://hideto.javaeye.com/blog/130815

Google架构学习

关键�? Google

原文�Q�Google Architecture

Google是�׾~�性的王者。Google一直的目标��是构徏高性能高�׾~�性的基础�l�织来支持它们的产品�?

�q�_��
Linux
大量语言�Q�Python�Q�Java�Q�C++

状�?
�?006�q�大�U�有450,000台廉��h��务器
�?005�q�Google索引�?0亿Web��面�Q�现在没有�h知道数目
目前在Google有超�q?00个GFS集群。一个集��可以有1000或者甚�?000台机器。成千上万的机器从运行着5000000000000000字节存储的GFS集群获取数据�Q�集��ȝ��d��吞吐量可以达到每�U?0兆字�?
目前在Google�?000个MapReduce�E�序�Q�而且每个月都写成百个新程�?
BigTable伸羃存储几十亿的URL�Q�几癑֍�千兆的卫星图片和几亿用户的参数选择

堆栈
Google形象化它们的基础�l�织��Z��层架构：
1�Q��品：搜烦�Q�广告，email�Q�地图，视频�Q�聊天，博客
2�Q�分布式�pȝ��基础�l�织�Q�GFS�Q�MapReduce和BigTable
3�Q�计��^収ͼ�一��不同的数据中心里的机器
4�Q�确保公叔R��的�h们部�|��v来开销很小
5�Q�花�Ҏ��多的钱在避免丢失日志数据的硬件上�Q�其他类型的数据则花费较��?

可信赖的存储机制GFS(Google File System)
1�Q�可信赖的�׾~�性存储是��M��E�序的核心需求。GFS��是Google的核心存储��^�?
2�Q�Google File System - 大型分布式结构化日志文�g�pȝ��Q�Google在里面扔了大量的数据
3�Q��ؓ什么构建GFS而不是利用已有的东西�Q�因为可以自己控制一切�ƈ且这个��^��C��别的不一��P��Google需要：
-跨数据中心的高可靠�?
-成千上万的网�l�节点的伸羃�?
-大读写带宽的需�?
-支持大块的数据，可能��Z��千兆字节
-高效的跨节点操作分发来减��瓶�?
4�Q�系�l�有Master和Chunk服务�?
-Master服务器在不同的数据文仉��保持元数据。数据以64MB为单位存储在文�g�pȝ��中。客��L��与Master服务器交��来在文件上做元数据操作�q�且扑ֈ�包含用户需要数据的那些Chunk服务�?
-Chunk服务器在��盘上存储实际数据。每个Chunk服务器跨��?个不同的Chunk服务器备份以创徏冗余来避免服务器崩溃。一旦被Master服务器指明，客户端程序就会直接从Chunk服务器读取文�?
6�Q�一个上�U�的新程序可以��用已有的GFS集群或者可以制作自��q��GFS集群
7�Q�关键点在于有��够的基础�l�织来让��Z��对自��q��E�序有所选择�Q�GFS可以调整来适应个别�E�序的需�?

使用MapReduce来处理数�?
1�Q�现在你已经有了一个很好的存储�pȝ��Q�你该怎样处理如此多的数据呢？比如你有许多TB的数据存储在1000台机器上。数据库不能伸羃或者�׾~�到�q�种�U�别��p��极大�Q�这��是MapReduce出现的原�?
2�Q�MapReduce是一个处理和生成大量数据集的�~�程模型和相兛_��现。用��h��定一个map�Ҏ��来处理一个键/值对来生成一个中间的�?值对�Q�还有一个reduce�Ҏ��来合�q�所有关联到同样的中间键的中间倹{��许多真实世界的��d��都可以��用这�U�模型来表现。以�q�种风格来写的程序会自动�q�行的在一个大量机器的集群里运行。运行时�pȝ��照顾输入数据划分、程序在机器集之间执行的调度、机器失败处理和必需的内部机器交��等�l�节。这允许�E�序员没有多��ƈ行和分布式系�l�的�l�验��可以很�Ҏ��使用一个大型分布式�pȝ��资源
3�Q��ؓ什么��用MapReduce�Q?
-跨越大量机器分割��d��的好方式
-处理机器��p�|
-可以与不同类型的�E�序工作�Q�例如搜索和�q�告。几乎�Q何程序都有map和reduce�c�d��的操作。你可以预先计算有用的数据、查询字数统计、对TB的数据排序等�{?
4�Q�MapReduce�pȝ��有三�U�不同类型的服务�?
-Master服务器分配用户�Q务到Map和Reduce服务器。它也跟�t��Q务的状�?
-Map服务器接收用戯��入�ƈ在其基础上处理map操作。结果写入中间文�?
-Reduce服务器接收Map服务器��生的中间文�g�q�在其基��上处理reduce操作
5�Q�例如，你想在所有Web��面里的字数。你��存储在GFS里的所有页面抛入MapReduce。这��在成千上万台机器上同时�q�行�q�且所有的调整、工作调度、失败处理和数据传输��自动完�?
-步骤�c�M��于：GFS -> Map -> Shuffle -> Reduction -> Store Results back into GFS
-在MapReduce里一个map操作��一些数据映��到另一个中�Q��生一个键值对�Q�在我们的例子里��是字和字数
-Shuffling操作聚集键类�?
-Reduction操作计算所有键值对的综合�ƈ产生最�l�的�l�果
6�Q�Google索引操作��道有大�U?0个不同的map和reduction�?
7�Q�程序可以非常小�Q�如20�?0行代�?
8�Q�一个问题是掉队者。掉队者是一个比其他�E�序慢的计算�Q�它��d��了其他程序。掉队者可能因为缓慢的IO或者��时的CPU不能使用而发生。解��x��案是�q�行多个同样的计��ƈ且当一个完成后杀��L��有其他的
9�Q�数据在Map和Reduce服务器之间传输时被压�~�了。这可以节省带宽和I/O�?

在BigTable里存储结构化数据
1�Q�BigTable是一个大伸羃性、错误容忍、自��理的系�l�，它包含千千兆的内存和1000000000000000的存储。它可以每秒钟处理百万的��d��
2�Q�BigTable是一个构��Z��GFS之上的分布式哈希机制。它不是关系型数据库。它不支持join或者SQL�c�d��查询
3�Q�它提供查询机制来通过键访问结构化数据。GFS存储存储不透明的数据而许多程序需求有�l�构化数�?
4�Q�商业数据库不能辑ֈ��q�种�U�别的�׾~�性�ƈ且不能在成千上万台机器上工作
5�Q�通过控制它们自己的低�U�存储系�l�Google得到更多的控制权来改�q�它们的�pȝ��。例如，如果它们惌��跨数据中心的操作更简单这个特性，它们可以内徏�?
6�Q�系�l�运行时机器可以自由的增删而整个系�l�保持工�?
7�Q�每个数据条目存储在一个格子里�Q�它可以通过一个行key和列key或者时间戳来访�?
8�Q�每一行存储在一个或多个tablet中。一个tablet是一�?4KB块的数据序列�q�且格式为SSTable
9�Q�BigTable有三�U�类型的服务器：
-Master服务器分配tablet服务器，它跟�t�tablet在哪里�ƈ且如果需要则重新分配��d��
-Tablet服务器�ؓtablet处理��d��h��。当tablet��过大小限制(通常�?00MB-200MB)时它们拆开tablet。当一个Tablet服务器失败时�Q�则100个Tablet服务器各自挑选一个新的tablet然后�pȝ��恢复�?
-Lock服务器�Ş成一个分布式锁服务。像打开一个tablet来写、Master调整和访问控制检查等都需要互�?
10�Q�一个locality�l�可以用来在物理上将相关的数据存储在一��h��得到更好的locality选择
11�Q�tablet��可能的�~�存在RAM�?

��g
1�Q�当你有很多机器时你怎样�l�织它们来��得��用和��p��有效�Q?
2�Q��用非常廉��L��g
3�Q�A 1,000-fold computer power increase can be had for a 33 times lower cost if you you use a failure-prone infrastructure rather than an infrastructure built on highly reliable components. You must build reliability on top of unreliability for this strategy to work.
4�Q�Linux�Q�in-house rack design�Q�PC��L��Q�低端存�?
5�Q�Price per wattage on performance basis isn't getting better. Have huge power and cooling issues
6�Q��用一些collocation和Google自己的数据中�?

其他
1�Q�迅速更改而不是等待QA
2�Q�库是构建程序的卓越方式
3�Q�一些程序作为服务提�?
4�Q�一个基��l�织处理�E�序的版本，�q�样它们可以发布而不用害怕会破坏什么东�?

Google��来的方�?
1�Q�支持地理位�|�分布的集群
2�Q��ؓ所有数据创��Z��个单独的全局名字�I�间。当前的数据由集��分��?
3�Q�更多和更好的自动化数据�q�移和计��?
4�Q�解军_��使用�|�络划分来做�q�K��区域的备份时的一致性问�?例如保持服务即��一个集��离�U�维护或�׃��一些损耗问�?

学到的东�?
1�Q�基��l�织是有竞争性的优势。特别是对Google而言。Google可以很快很廉��L��推出新服务，�q�且伸羃性其他�h很难辑ֈ�。许多公叔R��取完全不同的方式。许多公司认为基��l�织开销太大。Google认�ؓ自己是一个系�l�工�E�公司，�q�是一个新的看待��Y件构建的方式
2�Q�跨��多个数据中心仍然是一个未解决的问题。大部分�|�站都是一个或者最多两个数据中心。我们不得不承认怎样在一些数据中心之间完整的分布�|�站是很需要技巧的
3�Q�如果你自己没有旉��从零开始重新构建所有这些基��l�织你可以看看Hadoop。Hadoop是这里很多同��L��L��的一个开源实�?
4�Q��^台的一个优�Ҏ��初��开发�h员可以在�q�_��的基��上快速�ƈ且放心的创徏健全的程序。如果每个项目都需要发明同��L��分布式基��l�织的轮子，那么你将陷入困境因�ؓ知道怎样完成�q�项工作的�h相对较少
5�Q�协同工作不一直是掷骰子。通过让系�l�中的所有部分一起工作则一个部分的改进��帮助所有的部分。改�q�文件系�l�则每个��Z��中受益而且是透明的。如果每个项目��用不同的文�g�pȝ��则在整个堆栈中��n受不到持�l�增加的改进
6�Q�构��理�pȝ��让你没必要让�pȝ��x��。这允许你更�Ҏ��在服务器之间�q��资源、动态添加更大的定w��、让机器��ȝ��和优雅的处理升��
7�Q�创建可�q�化的基��l�织�Q��ƈ行的执行消耗时间的操作�q��取较好的�Ҏ��
8�Q�不要忽略学院。学院有许多没有转变��Z�品的好主意。Most of what Google has done has prior art, just not prior large scale deployment.
9�Q�考虑压羃。当你有许多CPU而IO有限时压�~�是一个好的选择�?

http://blog.daviesliu.net/2006/09/09/010620/

Lighttpd+Squid+Apache搭徏高效率Web服务�?

架构原理

Apache通常是开源界的首选Web服务器，因�ؓ它的强大和可靠，已经��h��了品牌效应，可以适用于绝大部分的应用场合。但是它的强大有时候却昑־��W�重�Q�配�|�文件得让�h望而生畏，高�ƈ发情况下效率不太高。而轻量��的Web服务器Lighttpd却是后�v之秀�Q�其静态文件的响应能力�q�高于Apache�Q�据说是Apache�?-3倍。Lighttpd的高性能和易用性，��以打动我们�Q�在它能够胜�ȝ��领域�Q�尽量用它。Lighttpd对PHP的支持也很好�Q�还可以通过Fastcgi方式支持其他的语�a��Q�比如Python�?

毕竟Lighttpd是轻量��的服务器�Q�功能上不能跟Apache比，某些应用无法胜�Q。比如Lighttpd�q�不支持�~�存�Q�而现在的�l�大部分站点都是用程序生成动态内容，没有�~�存的话即�ɽE�序的效率再高也很难满��大访问量的需求，而且让程序不停的��d��同一件事情也实在没有意义。首先，Web�E�序是需要做�~�存处理的，��x��反复使用的数据做�~�存。即使这样也�q�不够，单单是启动Web处理�E�序的代价就不少�Q�缓存最后生成的静态页面是必不可少的。而做�q�个�?Squid的强��，它本是做代理的，支持高效的缓存，可以用来�l�站点做反向代理加速。把Squid攑֜�Apache或者Lighttpd的前端来�~�存 Web服务器生成的动态内容，而Web应用�E�序只需要适当地设�|�页面实效时间即可�?

即��是大部分内容动态生成的�|�站�Q�仍免不了会有一些静态元素，比如囄��、JS脚本、CSS�{�等�Q�将Squid攑֜�Apache或者Lighttp前端后，反而会使性能下降�Q�毕竟处理HTTP��h��是Web服务器的强项。而且已经存在于文件系�l�中的静态内容再在Squid中缓存一下，��费内存和硬盘空间。因此可以考虑��Lighttpd再放在Squid的前面，构成 Lighttpd+Squid+Apache的一条处理链�Q�Lighttpd在最前面�Q�专门用来处理静态内容的��h��Q�把动态内容请求通过proxy模块转发�l�Squid�Q�如果Squid中有该请求的内容且没有过期，则直接返回给Lighttpd。新��h��或者过期的��面��h��交由Apache中Web�E�序来处理。经�q�Lighttpd和Squid的两�U�过滤，Apache需要处理的��h��大大减��，减少了Web应用�E�序的压力。同时这��L��构架�Q�便于把不同的处理分散到多台计算��Z��q�行�Q�由Lighttpd在前面统一把关�?

在这�U�架构下�Q�每一�U�都是可以进行单独优化的�Q�比如Lighttpd可以采用异步IO方式�Q�Squid可以启用内存来缓存，Apache可以启用MPM �{�，�q�且每一�U�都可以使用多台机器来均衡负载，伸羃性很好�?/font>

void 2009-04-17 21:04 发表评论

大型高�ƈ发高负蝲�|�站的系�l�架�?�?

void — Thu, 26 Feb 2009 04:26:00 GMT
      大型(门户/行业/商务)�|�站��中的架构是一个高度的技术难题。本��内容依所个�h在新��网多年担�Q新浪频道技术�ȝ��及众多项目的��目�l�理所写，希望各位指教�?br />
1、HTML静态化
      其实大家都知道，效率最高、消耗最��的��是�U�静态化的html��面�Q�所以我们尽可能使我们的�|�站上的��面�?用静态页面来实现�Q�这个最��单的�Ҏ��其实也是最有效的方法。但是对于大量内容�ƈ且频�J�更新的�|�站�Q�我们无法全部手动去挨个实现�Q�于是出��C��我们常见的信�?发布�pȝ��CMS�Q�像我们常访问的各个门户站点的新闻频道，甚至他们的其他频道，都是通过信息发布�pȝ��来管理和实现的，信息发布�pȝ��可以实现最��单的信息�?入自动生成静态页面，�q�能具备频道��理、权限管理、自动抓取等功能�Q�对于一个大型网站来��_��拥有一套高效、可��理的CMS是必不可��的�?br />
      除了门户和信息发布类型的�|�站�Q�对于交互性要求很高的�C�֌��c�d��|�站来说�Q�尽可能的静态化也是提高性能的必要手�D�，��社区内的帖子、文章进行实时的静态化�Q�有更新的时候再重新静态化也是大量使用的策略，像Mop的大杂烩��是使用了这��L��{�略�Q�网易社区等也是如此�?br />
      �?�Ӟ��html静态化也是某些�~�存�{�略使用的手�D�，对于�pȝ��中频�J��用数据库查询但是内容更新很小的应用，可以考虑使用html静态化来实玎ͼ�比如论坛中论坛的公用讄��信息�Q�这些信息目前的��L��论坛都可以进行后台管理�ƈ且存储再数据库中�Q�这些信息其实大量被前台�E�序调用�Q�但是更新频率很��，可以考虑��这部分内容�q�行后台更新的时候进行静态化�Q�这样避免了大量的数据库讉K��h��?br />
2、图片服务器分离
      大家知道�Q�对于Web服务器来��_��不管 �?Apache、IIS�q�是其他容器�Q�图片是最消耗资源的�Q�于是我们有必要��图片与��面�q�行分离�Q�这是基本上大型�|�站都会采用的策略，他们都有独立的图片服务器�Q�甚臛_��多台囄��服务器。这��L��架构可以降低提供��面讉K��h��的服务器�pȝ��压力�Q��ƈ且可以保证系�l�不会因为图片问题而崩溃，在应用服务器和图片服务器上，可以�q�行不同的配�|�优化，比如apache在配�|�ContentType的时候可以尽量少支持�Q�尽可能��的LoadModule�Q�保证更高的�pȝ��消�?和执行效率�?br />
3、数据库集群和库表散�?/strong>
      大型�|�站都有复杂的应用，�q�些应用必须使用数据库，那么在面对大量访问的时候，数据库的瓉��很快��p��昄��出来�Q�这时一台数据库��很快无法满��_��用，于是我们需要��用数据库集群或者库表散列�?br />
      在数据库集群斚w��Q�很多数据库都有自己的解��x��案，Oracle、Sybase�{�都有很好的�Ҏ��Q�常用的MySQL提供的Master/Slave也是�c�M��的方案，您��用了什么样的DB�Q�就参考相应的解决�Ҏ��来实施即可�?br />
      �?面提到的数据库集��由于在架构、成本、扩张性方面都会受到所采用DB�c�d��的限�Ӟ��于是我们需要从应用�E�序的角度来考虑改善�pȝ��架构�Q�库表散列是常用�q�且最有效的解��x��案。我们在应用�E�序中安装业务和应用或者功能模块将数据库进行分��，不同的模块对应不同的数据库或者表�Q�再按照一定的�{�略�Ҏ��个页面或者功�?�q�行更小的数据库散列�Q�比如用戯��Q�按照用户ID�q�行表散列，�q�样��p��够低成本的提升系�l�的性能�q�且有很好的扩展性。sohu的论坛就是采用了�q�样的架构，��论坛的用户、设�|�、帖子等信息�q�行数据库分��，然后对帖子、用��h��照板块和ID�q�行散列数据库和表，最�l�可以在配置文�g中进行简单的配置便能让系�l?随时增加一��C��成本的数据库�q�来补充�pȝ��性能�?br />
4、缓�?/strong>
      �~�存一词搞技术的都接触过�Q�很多地方用到缓存。网站架构和�|�站开发中的缓存也是非帔R��要。这里先讲述最基本的两�U�缓存。高�U�和分布式的�~�存在后面讲�q��?br /> 架构斚w��的缓存，对Apache比较熟悉的�h都能知道Apache提供了自��q��~�存模块�Q�也可以使用外加的Squid模块�q�行�~�存�Q�这两种方式均可以有效的提高Apache的访问响应能力�?br /> �|?站程序开发方面的�~�存�Q�Linux上提供的Memory Cache是常用的�~�存接口�Q�可以在web开发中使用�Q�比如用Java开发的时候就可以调用MemoryCache对一些数据进行缓存和通讯�׃�n�Q�一些大型社��Z��用了�q�样的架构。另外，在��用web语言开发的时候，各种语言基本都有自己的缓存模块和�Ҏ��Q�PHP有Pear的Cache模块�Q�Java��更�?了，.net不是很熟悉，�怿�也肯定有�?br />
5、镜�?/strong>
      镜像是大型网站常采用的提高性能和数据安全性的方式�Q�镜像的技术可以解决不同网 �l�接入商和地域带来的用户讉K��速度差异�Q�比如ChinaNet和EduNet之间的差异就促��了很多网站在教育�|�内搭徏镜像站点�Q�数据进行定时更新或者实时更新。在镜像的细节技术方面，�q�里不阐�q�太深，有很多专业的现成的解��x��构和产品可选。也有廉��L��通过软�g实现的思�\�Q�比如Linux上的rsync�{?工具�?br />
6、负载均�?/strong>
      负蝲均衡��是大型�|�站解决高负药��问和大量�q�发��h��采用的终极解军_��法�?br /> 负蝲均衡技术发展了多年�Q�有很多专业的服务提供商和��品可以选择�Q�我个�h接触�q�一些解��x��法，其中有两个架构可以给大家做参考�?br />
��g四层交换
      �W?四层交换使用�W�三层和�W�四层信息包的报头信息，�Ҏ��应用区间识别业务��，��整个区间段的业务流分配到合适的应用服务器进行处理。　�W�四层交换功能就象是�?IP�Q�指向物理服务器。它传输的业务服从的协议多种多样�Q�有HTTP、FTP、NFS、Telnet或其他协议。这些业务在物理服务器基��上，需要复杂的载量�q��法。在IP世界�Q�业务类型由�l�端TCP或UDP端口地址来决定，在第四层交换中的应用区间则由源端和终端IP地址、TCP和UDP端口共同�?定�?br /> 在硬件四层交换��品领域，有一些知名的产品可以选择�Q�比如Alteon、F5�{�，�q�些产品很昂贵，但是物有所��|��能够提供非常优秀的性能和很灉|��的管理能力。Yahoo中国当初接近2000台服务器使用了三四台Alteon��搞定了�?br />
软�g四层交换
      大家知道了硬件四层交换机的原理后�Q�基于OSI模型来实现的软�g四层交换也就应运而生�Q�这��L��解决�Ҏ��实现的原理一��_��不过性能�E�差。但是满��一定量的压力还是游刃有余的�Q�有��软�g实现方式其实更灵�z�，处理能力完全看你配置的熟悉能力�?br />       �?件四层交换我们可以��用Linux上常用的LVS来解冻I��LVS��是Linux Virtual Server�Q�他提供了基于心跳线heartbeat的实时灾隑ֺ�对解��x��案，提高�pȝ��的鲁��性，同时可供了灵�zȝ��虚拟VIP配置和管理功能，可以同时�?��_��U�应用需求，�q�对于分布式的系�l�来说必不可��?br />
      一个典型的使用负蝲均衡的策略就是，在��Y件或者硬件四层交换的基础上搭建squid集群�Q�这�U�思�\在很多大型网站包括搜索引擎上被采用，�q�样的架构低成本、高性能�q�有很强的扩张性，随时往架构里面增减节点都非常容易。这��L��架构我准备空了专门详�l�整理一下和大家探讨�?

void 2009-02-26 12:26 发表评论

大型�|�站架构演变和知识体�p?�?

void — Thu, 26 Feb 2009 04:05:00 GMT

之前也有一些介�l�大�?a href="file::;" target="_self">�|�站架构演变的文章，例如LiveJournal的�?/font>ebay的，都是非常值得参考的�Q�不�q�感觉他们讲的更多的是每�ơ演变的�l�果�Q�而没有很详细的讲��Z��么需要做�q�样的演变，再加上近来感觉有不少同学都很难明白�ؓ什么一个网站需要那么复杂的技�?/strong>�Q�于是有了写�q�篇文章的想法，在这��文章中��阐�q�C��个普通的�|�站发展成大型网站过�E�中的一�U�较为典型的架构演变历程和所需掌握�?a href="file::;" target="_self">知识体系�Q�希望能�l�想从事互联�|�行业的同学一点初步的概念�Q?/font>:)�Q�文中的不对之处也请各位多给点徏议，让本文真正�v到抛砖引玉的效果�?/font>

架构演变�W�一步：物理分离webserver�?a href="file::;" target="_self">数据�?/strong>
最开始，�׃��某些��x��Q�于是在互联�|�上搭徏了一个网站，�q�个时候甚��x��可能��L��都是�U�借的�Q�但�׃��q�篇文章我们只关注架构的演变历程�Q�因此就假设�q�个时�?/font>�?�l�是托管了一��C��机，�q�且有一定的带宽了，�q�个时候由于网站具备了一定的特色�Q�吸引了部分��问，逐渐你发现系�l�的压力��来��高�Q�响应速度��来��慢�Q�而这个时候比较明昄��是数据库和应用互相媄响，应用出问题了�Q�数据库也很�Ҏ��出现问题�Q�而数据库出问题的时候，应用也容易出问题�Q�于是进入了�W�一步演变阶�D�： ��应用和数据库从物理上分��，变成了两台机器，�q�个时候技术上没有什么新的要求，但你发现��实起到效果了，�pȝ��又恢复到以前的响应速度了，�q�且支撑住了�?高的��量�Q��ƈ且不会因为数据库和应用�Ş成互相的影响�?/font>
看看�q�一步完成后�pȝ��的图�C�：

�q�一步涉及到了这些知识体�p�：
�q�一步架构演变对技术上的知识体�p�d��本没有要求�?/font>

架构演变�W�二步：增加��面�~�存
好景不长�Q�随着讉K��的�h��来��多�Q�你发现响应速度又开始变慢了�Q�查扑֎�因，发现是访问数据库的操作太多，��D��数据�q�接竞争�Ȁ烈，所以响应变慢，但数据库�q?/font>接又不能开太多�Q�否则数据库机器压力会很高，因此考虑采用�~�存机制来减��数据库�q�接资源的竞争和�Ҏ��据库�ȝ��压力�Q�这个时候首先也�怼�选择采用squid�{�类似的机制来将�pȝ��中相寚w��态的��面�Q�例如一两天才会有更新的��面�Q�进行缓存（当然�Q�也可以采用��页面静态化的方案）�Q�这��L��序上可以不做修改�Q�就能够很好的减��对webserver的压力以及减��数据库�q�接资源的竞争，OK�Q�于是开始采�?/font>squid来做相对静态的��面的缓存�?/font>
看看�q�一步完成后�pȝ��的图�C�：

�q�一步涉及到了这些知识体�p�：
前端��面�~�存技术，例如squid�Q�如想用好的话还得深入掌握下squid的实现方式以及缓存的失效��法�{��?/font>

架构演变�W�三步：增加��面片段�~�存
增加�?/font>squid做缓存后�Q�整体系�l�的速度��实是提升了�Q?/font>webserver的压力也开始下降了�Q�但随着讉K��量的增加�Q�发现系�l�又开始变的有些慢了，在尝��C��squid之类的动态缓存带来的好处后，开始想能不能让现在那些动态页面里相对静态的部分也缓存�v来呢�Q�因此考虑采用�c�M��ESI之类的页面片�D늼�存策略，OK�Q�于是开始采�?/font>ESI来做动态页面中相对静态的片段部分的缓存�?/font>
看看�q�一步完成后�pȝ��的图�C�：

�q�一步涉及到了这些知识体�p�：
��面片段�~�存技术，例如ESI�{�，想用好的话同样需要掌�?/font>ESI的实现方式等�Q?/font>

架构演变�W�四步：数据�~�存
在采�?/font>ESI之类的技术再�ơ提高了�pȝ��的缓存效果后�Q�系�l�的压力��实�q�一步降低了�Q�但同样�Q�随着讉K��量的增加�Q�系�l�还是开始变慢，�l�过查找�Q�可能会发现�p?/font>�l�中存在一些重复获取数据信息的地方�Q�像获取用户信息�{�，�q�个时候开始考虑是不是可以将�q�些数据信息也缓存�v来呢�Q�于是将�q�些数据�~�存到本地内存，改变完毕后，完全�W�合预期�Q�系�l�的响应速度又恢复了�Q�数据库的压力也再度降低了不��?/font>
看看�q�一步完成后�pȝ��的图�C�：

�q�一步涉及到了这些知识体�p�：
�~�存技术，包括�?/font>Map数据�l�构、缓存算法、所选用�?a href="file::;" target="_self">框架本��n的实现机制等�?/font>

架构演变�W�五步：增加webserver
好景不长�Q�发现随着�pȝ��讉K��量的再度增加�Q?/font>webserver机器的压力在高峰期会上升到比较高�Q�这个时候开始考虑增加一�?/font>webserver�Q�这也是��Z��同时解决可用性的问题�Q�避免单台的webserver down机的话就没法使用了，在做了这些考虑后，军_��增加一�?/font>webserver�Q�增加一�?/font>webserver�Ӟ��会碰��C��些问题，典型的有�Q?/font>
1、如何让讉K��分配到这两台机器上，�q�个时候通常会考虑的方案是Apache自带的负载均衡方案，�?/font>LVS�q�类的��Y件负载均衡方案；
2、如何保持状态信息的同步�Q�例如用�?/font>session�{�，�q�个时候会考虑的方案有写入数据库、写入存储�?/font>cookie或同�?/font>session信息�{�机制等�Q?/font>
3、如何保持数据缓存信息的同步�Q�例如之前缓存的用户数据�{�，�q�个时候通常会考虑的机制有�~�存同步或分布式�~�存�Q?/font>
4、如何让上传文�g�q�些�c�M��的功能��l�正常，�q�个时候通常会考虑的机制是使用�׃�n文�g�pȝ��或存储等�Q?/font>
在解决了�q�些问题后，�l�于是把webserver增加��Z��两台�Q�系�l�终于是又恢复到了以往的速度�?/font>
看看�q�一步完成后�pȝ��的图�C�：

�q�一步涉及到了这些知识体�p�：
负蝲均衡技术（包括但不限于��g负蝲均衡、��Y件负载均衡、负载算法�?/font>linux转发协议、所选用的技术的实现�l�节�{�）、主备技术（包括但不限于ARP�ƺ骗�?/font>linuxheart-beat�{�）、状态信息或�~�存同步技术（包括但不限于Cookie技术�?/font>UDP协议、状态信息广播、所选用的缓存同步技术的实现�l�节�{�）、共享文件技术（包括但不限于NFS�{�）、存储技术（包括但不限于存储讑֤��{�）�?/font>

架构演变�W�六步：分库
享受了一�D�|��间的�pȝ��讉K��量高速增长的�q�福后，发现�pȝ��又开始变慢了�Q�这�ơ又是什么状况呢�Q�经�q�查找，发现数据库写入、更新的�q�些操作的部分数据库�q�接�?/font>�?源竞争非常激烈，��D��了系�l�变慢，�q�下怎么办呢�Q�此时可选的�Ҏ��有数据库集群和分库策略，集群斚w��像有些数据库支持的�ƈ不是很好�Q�因此分库会成�ؓ比较普遍的策略，分库也就意味着要对原有�E�序�q�行修改�Q�一通修改实现分库后�Q�不错，目标辑ֈ�了，�pȝ��恢复甚至速度比以前还快了�?/font>
看看�q�一步完成后�pȝ��的图�C�：

�q�一步涉及到了这些知识体�p�：
�q�一步更多的是需要从业务上做合理的划分，以实现分库，具体技术细节上没有其他的要求；
但同旉��着数据量的增大和分库的�q�行�Q�在数据库的设计、调优以及维护上需要做的更好，因此对这些方面的技术还是提��Z��很高的要求的�?/font>

架构演变�W�七步：分表�?/font>DAL和分布式�~�存
随着�pȝ��的不断运行，数据量开始大�q�度增长�Q�这个时候发现分库后查询仍然会有些慢�Q�于是按照分库的思想开始做分表�?a href="file::;" target="_self">工作�Q�当�Ӟ��q�不可避免的会需要对�E�序�q�行一些修改，也许在这个时候就会发现应用自��p��兛_��分库分表的规则等�Q�还是有些复杂的�Q�于是萌生能否增加一个通用的框架来实现分库分表的数据访问，�q�个�?/font>ebay的架构中对应的就�?/font>DAL�Q�这个演变的�q�程相对而言需要花费较长的旉��Q�当�Ӟ��也有可能�q�个通用的框架会�{�到分表做完后才开始做�Q�同�Ӟ��在这个阶�D�可能会发现之前的缓存同步方案出现问题，因�ؓ数据量太大，��D��现在不太可能��缓存存在本圎ͼ�然后同步的方式，需要采用分布式�~�存�Ҏ��了，于是�Q�又是一通考察和折��，�l�于是将大量的数据缓存�{�U�d��分布式缓存上了�?/font>
看看�q�一步完成后�pȝ��的图�C�：

�q�一步涉及到了这些知识体�p�：
分表更多的同��h��业务上的划分�Q�技术上涉及到的会有动�?/font>hash��法�?/font>consistenthash��法�{�；
DAL涉及到比较多的复杂技术，例如数据库连接的��理�Q�超时、异常）、数据库操作的控�Ӟ��时、异常）、分库分表规则的��装�{�；

架构演变�W�八步：增加更多�?/font>webserver
在做完分库分表这些工作后�Q�数据库上的压力已经降到比较低了�Q�又开始过着每天看着讉K��量暴增的�q�福生活了，�H�然有一天，发现�pȝ��的访问又开始有变慢的趋�?/font>了，�q�个时候首先查看数据库�Q�压力一切正常，之后查看webserver�Q�发�?/font>apache��d��了很多的��h��Q�而应用服务器�Ҏ��个请求也是比较快的，看来是请求数太高��D��需要排队等待，响应速度变慢�Q�这�q�好办，一般来��_��q�个时候也会有些钱了，于是��d��一�?/font>webserver服务器，在这个添�?/font>webserver服务器的�q�程�Q�有可能会出现几�U�挑战：
1�?/font>Apache的��Y负蝲�?/font>LVS软负载等无法承担巨大�?/font>web讉K��量（��h��q�接数、网�l�流量等�Q�的调度了，�q�个时候如果经费允许的话，会采取的�Ҏ��是购买硬件负载，例如F5�?/font>Netsclar�?/font>Athelon之类的，如经费不允许的话�Q�会采取的方案是��应用从逻辑上做一定的分类�Q�然后分散到不同的��Y负蝲集群中；
2、原有的一些状态信息同步、文件共享等�Ҏ��可能会出现瓶颈，需要进行改�q�，也许�q�个时候会�Ҏ��情况�~�写�W�合�|�站业务需求的分布式文件系�l�等�Q?/font>
在做完这些工作后�Q�开始进入一个看似完��的无限伸羃的时代，当网站流量增加时�Q�应对的解决�Ҏ��是不断的添�?/font>webserver�?/font>
看看�q�一步完成后�pȝ��的图�C�：

�q�一步涉及到了这些知识体�p�：
��C��q�一步，随着机器数的不断增长、数据量的不断增长和对系�l�可用性的要求��来��高�Q�这个时候要求对所采用的技术都要有更�ؓ深入的理解，�q��要根据网站的需求来做更加定制性质的��品�?/font>

架构演变�W�九步：数据��d��分离和廉价存储方�?/font>
�H�然有一天，发现�q�个完美的时代也要结束了�Q�数据库的噩梦又一�ơ出现在眼前了，�׃��d��?/font>webserver太多了，��D��数据库连接的资源�q�是不够用，而这个时候又已经分库分表了，开始分析数据库的压力状况，可能会发现数据库的读写比很高�Q�这个时候通常会想到数据读写分��ȝ��Ҏ��Q�当�Ӟ��q�个�Ҏ��要实现�ƈ�?/font>�Ҏ��Q�另外，可能会发��C��些数据存储在数据库上有些��费�Q�或者说�q�于占用数据库资源，因此在这个阶�D�可能会形成的架构演变是实现数据��d��分离�Q�同时编写一些更为廉��L��存储�Ҏ��Q�例�?/font>BigTable�q�种�?/font>
看看�q�一步完成后�pȝ��的图�C�：

�q�一步涉及到了这些知识体�p�：
数据��d��分离要求�Ҏ��据库的复制�?/font>standby�{�策略有深入的掌握和理解�Q�同时会要求具备自行实现的技术；
廉�h存储�Ҏ��要求�?/font>OS的文件存储有深入的掌握和理解�Q�同时要求对采用的语�a�在文件这块的实现有深入的掌握�?/font>

架构演变�W�十步：�q�入大型分布式应用时代和廉�h服务器群梦想时代
�l�过上面�q�个漫长而痛苦的�q�程�Q�终于是再度�q�来了完��的时代�Q�不断的增加webserver��可以支撑越来越高的讉K��量了�Q�对于大型网站而言�Q��h气的重要�?/font>庸置疑，随着人气的越来越高，各种各样的功能需求也开始爆发性的增长�Q�这个时候突然发玎ͼ�原来部��v�?/font>webserver上的那个web应用已经非常庞大了，当多个团队都开始对其进行改动时�Q�可真是相当的不方便�Q�复用性也相当�p�糕�Q�基本是每个团队都做了或多或��重复的事情�Q�而且部��v和维护也是相当的�ȝ��Q?/font>因�ؓ庞大的应用包�?/font>N台机器上复制、启动都需要耗费不少的时��_��出问题的时候也不是很好查，另外一个更�p�糕的状冉|��很有可能会出现某个应用上�?/font>bug��导致了全站都不可用�Q�还有其他的像调优不好操作（因�ؓ机器上部�|�的应用什么都要做�Q�根本就无法�q�行针对性的调优�Q�等因素�Q�根据这��L��分析�Q�开始痛下决心，��?/font>�pȝ��Ҏ��职责�q�行拆分�Q�于是一个大型的分布式应用就诞生了，通常�Q�这个步骤需要耗费相当长的旉��Q�因��Z��到很多的挑战：
1、拆成分布式后需要提供一个高性能、稳定的通信框架�Q��ƈ且需要支持多�U�不同的通信和远�E�调用方式；
2、将一个庞大的应用拆分需要耗费很长的时��_��需要进行业务的整理和系�l�依赖关�pȝ��控制�{�；
3、如何运�l�_��依赖��理、运行状�늮�理、错误追�t�、调优、监控和报警�{�）好这个庞大的分布式应用�?/font>
�l�过�q�一步，差不多系�l�的架构�q�入相对�E�_��的阶�D�，同时也能开始采用大量的廉�h机器来支撑着巨大的访问量和数据量�Q�结合这套架构以及这么多�ơ演变过�E�吸取的�l�验来采用其他各�U�各��L���Ҏ��来支撑着��来��高的访问量�?/font>
看看�q�一步完成后�pȝ��的图�C�：

�q�一步涉及到了这些知识体�p�：
�q�一步涉及的知识体系非常的多�Q�要求对通信、远�E�调用、消息机制等有深入的理解和掌握，要求的都是从理论、硬件��、操作系�l��以及所采用的语�a�的实现都有清楚的理解�?/font>
�q�维�q�块涉及的知识体�p�M��非常的多�Q�多数情况下需要掌握分布式�q�行计算、报表、监控技术以及规则策略等�{��?/font>
说�v来确实不怎么费力�Q�整个网站架构的�l�典演变�q�程都和上面比较的类��|��当然�Q�每步采取的�Ҏ��Q�演变的步骤有可能有不同�Q�另外，�׃��|�站的业务不同，会有不同的专业技术的需求，�q�篇blog更多的是从架构的角度来讲解演变的�q�程�Q�当�Ӟ��其中�q�有很多的技术也未在此提及，像数据库集群、数据挖掘、搜索等�Q�但在真实的演变�q�程中还会借助像提升硬仉��|�、网�l�环境、改造操作系�l��?/font>CDN镜像�{�来支撑更大的流量，因此在真实的发展�q�程中还会有很多的不同，另外一个大型网站要做到的远�q�不仅仅上面�q�些�Q�还有像安全、运�l�、运营、服务、存储等�Q�要做好一个大型的�|�站真的很不�Ҏ��Q�写�q�篇文章更多的是希望能够引出更多大型�|�站架构演变的介�l�，:)�?/font>

ps:最后附上几��LiveJournal架构演变的文章：
从LiveJournal后台发展看大规模�|�站性能优化�Ҏ��
http://blog.zhangjianfeng.com/article/743
另外从这里：http://www.danga.com/words/大家可以扑ֈ�更多关于现在LiveJournal�|�站架构的介�l��?/p>

void 2009-02-26 12:05 发表评论