<rt id="bn8ez"></rt>
<label id="bn8ez"></label>

  • <span id="bn8ez"></span>

    <label id="bn8ez"><meter id="bn8ez"></meter></label>

    paulwong

    為什么 Storm 比 Hadoop 快?是由哪幾個方面決定的?

    首先要明白Storm和Hadoop的應用領域,注意加粗、標紅的關鍵字。

    Hadoop是基于Map/Reduce模型的,處理海量數據的離線分析工具。
    Storm是分布式的、實時數據流分析工具,數據是源源不斷產生的,例如Twitter的Timeline。

    再回到你說的速度問題,只能說Storm更適用于實時數據流,Map/Reduce模型在實時領域很難有所發揮,不能簡單粗暴的說誰快誰慢。



    這里的快主要是指的時延。

    storm的網絡直傳、內存計算,其時延必然比hadoop的通過hdfs傳輸低得多;當計算模型比較適合流式時,storm的流式處理,省去了批處理的收集數據的時間;因為storm是服務型的作業,也省去了作業調度的時延。所以從時延上來看,storm要快于hadoop。

    說一個典型的場景,幾千個日志生產方產生日志文件,需要進行一些ETL操作存入一個數據庫。

    假設利用hadoop,則需要先存入hdfs,按每一分鐘切一個文件的粒度來算(這個粒度已經極端的細了,再小的話hdfs上會一堆小文件),hadoop開始計算時,1分鐘已經過去了,然后再開始調度任務又花了一分鐘,然后作業運行起來,假設機器特別多,幾鈔鐘就算完了,然后寫數據庫假設也花了很少的時間,這樣,從數據產生到最后可以使用已經過去了至少兩分多鐘。

    而流式計算則是數據產生時,則有一個程序去一直監控日志的產生,產生一行就通過一個傳輸系統發給流式計算系統,然后流式計算系統直接處理,處理完之后直接寫入數據庫,每條數據從產生到寫入數據庫,在資源充足時可以在毫秒級別完成。


    當然,跑一個大文件的wordcount,本來就是一個批處理計算的模型,你非要把它放到storm上進行流式的處理,然后又非要讓等所有已有數據處理完才讓storm輸出結果,這時候,你再把它和hadoop比較快慢,這時,其實比較的不是時延,而是比較的吞吐了。



    Hadoop M/R基于HDFS,需要切分輸入數據、產生中間數據文件、排序、數據壓縮、多份復制等,效率較低。

    Storm 基于ZeroMQ這個高性能的消息通訊庫,不持久化數據。

    posted on 2013-09-08 18:12 paulwong 閱讀(380) 評論(0)  編輯  收藏 所屬分類: LOG ANALYST BIG DATA SYSTEM

    主站蜘蛛池模板: 最好免费观看韩国+日本 | 1024免费福利永久观看网站| 亚洲av日韩av高潮潮喷无码| 成人免费午夜无码视频| 老司机免费午夜精品视频| 亚洲色偷偷综合亚洲AVYP| 性xxxxx免费视频播放| 极品美女一级毛片免费| 亚洲一区二区电影| 热99re久久精品精品免费| a级午夜毛片免费一区二区| 亚洲乱码在线视频| 最新精品亚洲成a人在线观看| 亚洲黄色免费网址| 在线播放国产不卡免费视频| 亚洲黄色在线网站| 亚洲成片观看四虎永久| 亚洲美女免费视频| 亚洲日韩在线观看免费视频| 亚洲a级片在线观看| 亚洲中文字幕无码爆乳AV| 青青青免费国产在线视频小草| 人妻巨大乳hd免费看| 亚洲乱码一二三四区麻豆| 久久精品国产亚洲7777| 最新猫咪www免费人成| 一区二区三区四区免费视频 | 国产日韩亚洲大尺度高清| 毛片免费在线观看网站| 男的把j放进女人下面视频免费| 亚洲国产美女精品久久久| 精品亚洲A∨无码一区二区三区| 亚洲成aⅴ人片久青草影院| AA免费观看的1000部电影| 久久综合九色综合97免费下载| 老司机午夜性生免费福利 | 亚洲人成网站色7799| 亚洲综合激情九月婷婷| 亚洲午夜国产精品无码老牛影视| 国产精品视_精品国产免费| 久草免费在线观看视频|