亚洲av无码专区在线电影天堂,久久久久噜噜噜亚洲熟女综合,国产精品亚洲综合

finereport愛好者論壇出品--大數(shù)據處理

Posted on 2012-10-18 11:07 FineReport——報表技術領跑者閱讀(363) 評論(0) 編輯收藏所屬分類: Java報表使用心得

下面的方法是我對海量數(shù)據的處理方法進行了一個一般性的總結，當然這些方法可能并不能完全覆蓋所有的問題，但是這樣的一些方法也基本可以處理絕大多數(shù)遇到的問題。下面的一些問題基本直接來源于公司的面試筆試題目，方法不一定最優(yōu)，如果你有更好的處理方法，歡迎與我討論。

1.Bloom filter

適用范圍：可以用來實現(xiàn)數(shù)據字典，進行數(shù)據的判重，或者集合求交集

基本原理及要點：

對于原理來說很簡單，位數(shù)組+k個獨立hash函數(shù)。將hash函數(shù)對應的值的位數(shù)組置1，查找時如果發(fā)現(xiàn)所有hash函數(shù)對應位都是1說明存在，很明顯這個過程并不保證查找的結果是100%正確的。同時也不支持刪除一個已經插入的關鍵字，因為該關鍵字對應的位會牽動到其他的關鍵字。所以一個簡單的改進就是 counting Bloom filter，用一個counter數(shù)組代替位數(shù)組，就可以支持刪除了。

還有一個比較重要的問題，如何根據輸入元素個數(shù)n，確定位數(shù)組m的大小及hash函數(shù)個數(shù)。當hash函數(shù)個數(shù)k=(ln2)*(m/n)時錯誤率最小。在錯誤率不大于E的情況下，m至少要等于n*lg(1/E)才能表示任意n個元素的集合。但m還應該更大些，因為還要保證bit數(shù)組里至少一半為0，則m應該>=nlg(1/E)*lge 大概就是nlg(1/E)1.44倍(lg表示以2為底的對數(shù))。

舉個例子我們假設錯誤率為0.01，則此時m應大概是n的13倍。這樣k大概是8個。

注意這里m與n的單位不同，m是bit為單位，而n則是以元素個數(shù)為單位(準確的說是不同元素的個數(shù))。通常單個元素的長度都是有很多bit的。所以使用bloom filter內存上通常都是節(jié)省的。

擴展：

Bloom filter將集合中的元素映射到位數(shù)組中，用k（k為哈希函數(shù)個數(shù)）個映射位是否全1表示元素在不在這個集合中。Counting bloom filter（CBF）將位數(shù)組中的每一位擴展為一個counter，從而支持了元素的刪除操作。Spectral Bloom Filter（SBF）將其與集合元素的出現(xiàn)次數(shù)關聯(lián)。SBF采用counter中的最小值來近似表示元素的出現(xiàn)頻率。

問題實例：給你A,B兩個文件，各存放50億條URL，每條URL占用64字節(jié)，內存限制是4G，讓你找出A,B文件共同的URL。如果是三個乃至n個文件呢？

根據這個問題我們來計算下內存的占用，4G=2^32大概是40億*8大概是340億，n=50億，如果按出錯率0.01算需要的大概是650億個bit。現(xiàn)在可用的是340億，相差并不多，這樣可能會使出錯率上升些。另外如果這些urlip是一一對應的，就可以轉換成ip，則大大簡單了。

2.Hashing

適用范圍：快速查找，刪除的基本數(shù)據結構，通常需要總數(shù)據量可以放入內存

基本原理及要點：

hash函數(shù)選擇，針對字符串，整數(shù)，排列，具體相應的hash方法。

碰撞處理，一種是open hashing，也稱為拉鏈法；另一種就是closed hashing，也稱開地址法，opened addressing。

擴展：

d-left hashing中的d是多個的意思，我們先簡化這個問題，看一看2-left hashing。2-left hashing指的是將一個哈希表分成長度相等的兩半，分別叫做T1和T2，給T1和T2分別配備一個哈希函數(shù)，h1和h2。在存儲一個新的key時，同時用兩個哈希函數(shù)進行計算，得出兩個地址h1[key]和h2[key]。這時需要檢查T1中的h1[key]位置和T2中的h2[key]位置，哪一個位置已經存儲的（有碰撞的）key比較多，然后將新key存儲在負載少的位置。如果兩邊一樣多，比如兩個位置都為空或者都存儲了一個key，就把新key 存儲在左邊的T1子表中，2-left也由此而來。在查找一個key時，必須進行兩次hash，同時查找兩個位置。

問題實例：

1).海量日志數(shù)據，提取出某日訪問百度次數(shù)最多的那個IP。

IP的數(shù)目還是有限的，最多2^32個，所以可以考慮使用hash將ip直接存入內存，然后進行統(tǒng)計。

3.bit-map

適用范圍：可進行數(shù)據的快速查找，判重，刪除，一般來說數(shù)據范圍是int的10倍以下

基本原理及要點：使用bit數(shù)組來表示某些元素是否存在，比如8位電話號碼

擴展：bloom filter可以看做是對bit-map的擴展

問題實例：

1)已知某個文件內包含一些電話號碼，每個號碼為8位數(shù)字，統(tǒng)計不同號碼的個數(shù)。

8位最多99 999 999，大概需要99m個bit，大概10幾m字節(jié)的內存即可。

2)2.5億個整數(shù)中找出不重復的整數(shù)的個數(shù)，內存空間不足以容納這2.5億個整數(shù)。

將bit-map擴展一下，用2bit表示一個數(shù)即可，0表示未出現(xiàn)，1表示出現(xiàn)一次，2表示出現(xiàn)2次及以上。或者我們不用2bit來進行表示，我們用兩個bit-map即可模擬實現(xiàn)這個2bit-map。

轉載自：finereport愛好者論壇

欲了解更多中式java報表軟件？請點擊

新用戶注冊刷新評論列表


只有注冊用戶登錄后才能發(fā)表評論。




網站導航: 博客園 IT新聞 Chat2DB C++博客博問管理
相關文章: RSA加密算法的簡單案例報表性能優(yōu)化方案之報表取數(shù) 報表性能優(yōu)化方案之巧用相鄰連續(xù)分組報表性能優(yōu)化方案之行引擎執(zhí)行層式報表農商行統(tǒng)一數(shù)據分析平臺的建設要點和價值數(shù)據平臺之企業(yè)營銷管理與分析平臺建設汽車4S店經驗指標完成情況報表制作分享 FineReport構建銀行金融租賃考核系統(tǒng) 使用FineReport打造考試分析系統(tǒng) 教你用報表工具搭建企業(yè)考核系統(tǒng)

Java軟件報表軟件技術博客

finereport愛好者論壇出品--大數(shù)據處理

日歷

隨筆分類

相冊

IT技術論壇

Java友情博客鏈接

最新隨筆

搜索

最新評論

閱讀排行榜