<rt id="bn8ez"></rt>
<label id="bn8ez"></label>

  • <span id="bn8ez"></span>

    <label id="bn8ez"><meter id="bn8ez"></meter></label>

    paulwong

    為什么 Storm 比 Hadoop 快?是由哪幾個方面決定的?

    首先要明白Storm和Hadoop的應用領域,注意加粗、標紅的關鍵字。

    Hadoop是基于Map/Reduce模型的,處理海量數據的離線分析工具。
    Storm是分布式的、實時數據流分析工具,數據是源源不斷產生的,例如Twitter的Timeline。

    再回到你說的速度問題,只能說Storm更適用于實時數據流,Map/Reduce模型在實時領域很難有所發揮,不能簡單粗暴的說誰快誰慢。



    這里的快主要是指的時延。

    storm的網絡直傳、內存計算,其時延必然比hadoop的通過hdfs傳輸低得多;當計算模型比較適合流式時,storm的流式處理,省去了批處理的收集數據的時間;因為storm是服務型的作業,也省去了作業調度的時延。所以從時延上來看,storm要快于hadoop。

    說一個典型的場景,幾千個日志生產方產生日志文件,需要進行一些ETL操作存入一個數據庫。

    假設利用hadoop,則需要先存入hdfs,按每一分鐘切一個文件的粒度來算(這個粒度已經極端的細了,再小的話hdfs上會一堆小文件),hadoop開始計算時,1分鐘已經過去了,然后再開始調度任務又花了一分鐘,然后作業運行起來,假設機器特別多,幾鈔鐘就算完了,然后寫數據庫假設也花了很少的時間,這樣,從數據產生到最后可以使用已經過去了至少兩分多鐘。

    而流式計算則是數據產生時,則有一個程序去一直監控日志的產生,產生一行就通過一個傳輸系統發給流式計算系統,然后流式計算系統直接處理,處理完之后直接寫入數據庫,每條數據從產生到寫入數據庫,在資源充足時可以在毫秒級別完成。


    當然,跑一個大文件的wordcount,本來就是一個批處理計算的模型,你非要把它放到storm上進行流式的處理,然后又非要讓等所有已有數據處理完才讓storm輸出結果,這時候,你再把它和hadoop比較快慢,這時,其實比較的不是時延,而是比較的吞吐了。



    Hadoop M/R基于HDFS,需要切分輸入數據、產生中間數據文件、排序、數據壓縮、多份復制等,效率較低。

    Storm 基于ZeroMQ這個高性能的消息通訊庫,不持久化數據。

    posted on 2013-09-08 18:12 paulwong 閱讀(380) 評論(0)  編輯  收藏 所屬分類: LOG ANALYST BIG DATA SYSTEM

    主站蜘蛛池模板: 国产成人免费手机在线观看视频| 91大神亚洲影视在线| 女人18特级一级毛片免费视频| 日本一道本高清免费| 日韩一卡2卡3卡4卡新区亚洲 | 性短视频在线观看免费不卡流畅 | 亚洲一级毛片中文字幕| 亚洲乱亚洲乱妇24p| 一个人看的免费高清视频日本| 华人在线精品免费观看| 国产情侣激情在线视频免费看| 国产午夜免费秋霞影院| 亚洲国产美女精品久久久久| 一级毛片视频免费| 亚洲综合精品香蕉久久网| 免费观看91视频| 亚洲日本国产精华液| 天天看免费高清影视| 免费视频成人国产精品网站| 亚洲人成电影网站免费| 亚洲精品精华液一区二区| 99热精品在线免费观看| 国产成人亚洲综合无码| 亚洲精品动漫免费二区| 亚洲精品456播放| 天天综合亚洲色在线精品| 久草视频免费在线观看| 亚洲第一福利视频| 一个人看的www免费在线视频| 亚洲成A人片在线观看无码不卡| 免费一区二区三区在线视频| 亚洲av网址在线观看| 精品国产麻豆免费网站| 亚洲色最新高清av网站| jjizz全部免费看片| 亚洲男人的天堂在线播放| 免费国产成人α片| 亚洲av无码一区二区三区天堂| 成年在线观看免费人视频草莓| 亚洲av无码片在线观看| 亚洲精品国产自在久久|