日本亚洲免费无线码,亚洲乱码无人区卡1卡2卡3,国产日韩亚洲大尺度高清

寫在MapReduce問題的回復后

中午左右收到一個看我blog的朋友的郵件，最近他在研究mapreduce，然后想用hadoop來做一些工作，不過遇到了一些問題，我這邊也貼一下他的幾個問題，同時覺得自己把自己的一些看法分享一下，當然只是自己的一些想法，也許對新學習的同學有幫助。

問題：

從Map（K,V）的方式來看，難道mapreduce只能做統計？
目前我想除了日志分析之類的功能外，還想做一個全文檢索的功能，類似windows查詢一下，通過關鍵字查詢文件的位置即可（可能還要根據匹配度做排序），這個我很迷茫不知道怎么下手，痛苦ing
你的實踐是一個單機模式，如果用戶把一個1G的log已經上傳到hdfs了，此時分割工作已經完成，只需要從client那里得到文件基本信息和塊的location就可以了，那mapreduce怎么進行下去呢？

我給回復的郵件內容：

首先，MapReduce的思想和Hadoop的MapReduce的架構不是一個概念，說的具體一點也就是Hadoop的架構設計只是MapReduce的一個子集思想的實現。每個人都可以根據自己對MapReduce的理解去實現業務處理，簡單來說多線程處理就是MapReduce的一種最簡單的實現，復雜來說多機協調工作就是一種復雜的實現。

MapReduce的思想里面最值得借鑒的：

a.問題分而治之。（找到流程的關鍵路徑，優化可以并行處理的工作）

b.計算靠近數據。（這也是hdfs存在的最重要的特點，計算的轉移往往要比數據轉移廉價，特別是對海量數據的處理）

c.數據規?；S著并行處理成數量級遞減。

剩下的內容就是各個框架對于非業務性需求的處理，例如容災，如何盡量少穿數據協調處理等等。

針對他提出的三個問題：

    1. Hadoop的mapreduce從架構上來說最適合的就是統計分析計算。做其他方面的工作需要考慮是否適合，而不是為了技術而技術，先有需求再有技術選型。
    2. 對于你這個需求直接用搜索技術實現就可以了，不一定要硬套在mapreduce上。
    3. 對于海量數據是否一定要到hdsf上，或者就簡單得數據物理或者邏輯切割來直接處理，根據自己業務場景選擇。hdfs的特點就是對文件切割，容災，數據邏輯存儲和物理存儲無關性（便于擴容管理，同時也是計算靠近數據的技術保證）。

是否使用MapReduce框架，HDFS存儲關鍵還是看你是否真的需要，當現有框架對自己來說并不合適的時候可以對小規模問題定制MapReduce的處理，最簡化就是你去多線程或者多進程處理問題，需求決定技術選型。

posted on 2009-12-09 13:09 岑文初閱讀(2590) 評論(1) 編輯收藏

以下是我自己的一點見解，

MapReduce的思想是最重要的，基于這個思想會有很多的實現，大問題有大問題的實現，小問題有小問題的實現。前段時間碰到一個很小的問題，非常復雜的轉化（兩類object之間的轉化），如果用普通的方法N多循環，但是如果用MapReduce思想的話就會變的更容易（不會用到多線程，也不會有大task的split，就是一個純粹的小實現而已）。

對于一般的應用log肯定是不變的道理，可以非常好的應用（一般的系統多線程實現就應該夠了）；除此之外，利用MapReduce的思想，如果一件事情可以分為4步來做，step by step是一種方案（COR），但是我們如果MapReduce，就可以在第一步做一個split，后面分為多個線程（大的應用可以多臺server）去做，最后Master節點（或者server）再去做一個規約（Reduce）就好了。

基于以上思想，如果多臺server能共享內存，這樣的話，我們能夠在沒有過多copy（IO）的情況下去做一些business的事情。 JVM level cluster（terracotta是其中一種解決方案）的master/worker其實在某種意義上也算是一個MapReduce了。

寫的比較亂，不好意思。回復更多評論

新用戶注冊刷新評論列表


只有注冊用戶登錄后才能發表評論。




網站導航: 博客園 IT新聞 Chat2DB C++博客博問管理

放翁（文初）的一畝三分地

常用鏈接

留言簿(34)

隨筆檔案

淘寶同學的blog

搜索

最新評論

閱讀排行榜

評論排行榜

評論