Hadoop周刊 第 176 期
啟明星辰平臺和大數據總體組編譯
2016年6月29日
Hadoop峰會本周在圣何塞召開,所以很期待在下期周刊看到新項目的發布和精彩演講(請向我們提供任何相關的幻燈片)。至于本期周刊,有大量關于Kafka Streams、從Amazon Kinesis向Google BigQuery傳遞流式數據、Google數據集搜索系統的文章。
技術新聞
Shine介紹了他們如何使用Amazon Lambda和Amazon Kinesis,以及為Apache web服務器提供的Kinesis代理(用于采日志),以及從EC2移動數據到Google BigQuery的內容。本文提供了Lambda函數(javascript編寫)代碼片段,規模和開銷方面的信息,描述了如何通過gzip壓縮數據從而優化傳輸開銷。
https://blog.shinetech.com/2016/06/21/kinesis-lambda-bigquery/
Cloudera博客撰文介紹了如何通過Apache Spark、Apache Impala(孵化中)、Hue對夢之隊數據進行分析。本文主要聚焦在分析上,附帶了些Spark代碼以及Hue的功能演示。
http://blog.cloudera.com/blog/2016/06/how-to-analyze-fantasy-sports-with-apache-spark-and-sql-part-2-data-exploration/
KDnuggets撰文介紹了13個和Apache Spark相關的主要API/項目/名詞。包括RDD、DataFrame、Dataset、結構化流式計算、GraphX、Tungsten。每個條目都有一段章節介紹,足夠很好的了解Spark主要特性了。
http://www.kdnuggets.com/2016/06/spark-key-terms-explained.html
本文來自Confluent博客,介紹了那些雖看起來簡單卻又不簡單的Kafka Streams應用。例如用Kafka Streams編寫結合用戶點擊流數據和用戶位置數據的程序。后者存儲在KTable中,KTable提供了類似帶有數據庫表主鍵的抽象(主鍵的最新值通過API暴露)。最后的程序倒是簡單——只有幾行代碼。
http://www.confluent.io/blog/distributed-real-time-joins-and-aggregations-on-user-activity-events-using-kafka-streams
Cloudera博客撰文介紹了meinstadt.de構建在Apache Flume、Apache Spark Streaming、Apache Impala(孵化中)上的HTTP請求異常檢測系統。實現代碼放在了github上。
http://blog.cloudera.com/blog/2016/06/how-to-detect-and-report-web-traffic-anomalies-in-near-real-time/
AWS大數據博客有教程介紹了如何使用Apache Spark和Apache Zeppelin從Amazon EMR集群處理Amazon Kinesis流數據。本文包含了一些通過Zeppelin notebook運行SQL產生的數據可視化范例。
http://blogs.aws.amazon.com/bigdata/post/Tx3K805CZ8WFBRP/Analyze-Realtime-Data-from-Amazon-Kinesis-Streams-Using-Zeppelin-and-Spark-Strea
Apache Kudu(孵化中)接近1.0版發布了,將全面支持高可用性。本文介紹了這最后一塊拼圖“主復制”是如何實現的。曬了下JIRA上各種問題的跟進的情況,以及完成與剩余的測試。
http://kudu.apache.org/2016/06/24/multi-master-1-0-0.html
Google的所有數據平臺擁有超過260億的數據集,每天要添加和刪除16億的數據集路徑。為了跟蹤、查詢、比較數據集,他們研發了Google Dataset Search(GOODS)。GOODS跟蹤由API暴露的元數據,這些元數據被用于檢索、監控等。
http://dl.acm.org/citation.cfm?id=2903730
其他新聞
SiliconAngle采訪了Hortonworks CEO Rob Bearden。主題包括業界趨勢、Hortonworks財務、Hortonworks的非Hadoop技術以及物聯網。
http://siliconangle.com/blog/2016/06/24/hadoop-and-beyond-a-conversation-with-hortonworks-ceo-rob-bearden/
產品發布
Apache Sentry本周發布了1.7.0版,修復了bug,增加了新特性和其他方面的提升。本次發布把Hive授權框架升級到了第二版。
http://mail-archives.us.apache.org/mod_mbox/www-announce/201606.mbox/%3CCAPOmu3sDqdzu9ntDSvkMaDRQnVfHrkGV5qhyh-ZRiMmwgMMvBA@mail.gmail.com%3E
基于Apache Cassandra 3.0構建的DataStax Enterprise 5.0,增加了對圖數據、分層存儲、Cassandra多實例的支持。本次發布也增加了諸如加密和基于角色訪問控制的附加安全特性支持。
https://www.datastax.com/2016/06/introducing-datastax-enterprise-5-0
Driven,大數據應用性能監控系統發布了2.2版。本次發布的亮點是對Apache Spark的監控提供了支持。
http://www.driven.io/2016/06/driven-inc-delivering-hadoop-spark-performance-monitoring-announces-driven-2-2/
BlueData發布了他們為Amazon Web Services提供的EPIC企業大數據既服務產品。本產品通過簡單的點擊就能自動裝載到基于Docker的Hadoop集群。
http://www.bluedata.com/blog/2016/06/big-data-as-a-service-on-prem-or-cloud-bdaas/
Apache Accumulo發布了1.7.2版。本次發布修復了write-ahead日志處理方式,優化了RFiles,以及性能上的小提升。
https://accumulo.apache.org/release_notes/1.7.2.html
Apache ZooKeeper的頂級SDK,Apache Curator發布了2.11.0和3.2.0版。
https://cwiki.apache.org/confluence/display/CURATOR/Releases#Releases-June23,2016,Releases2.11.0and3.2.0available
Apache Hive發布了2.1.0版。修復了大量bug和功能增強,包括對Hive的Live Longer和Prosper 改進和以及JDBC支持。
http://mail-archives.us.apache.org/mod_mbox/www-announce/201606.mbox/%3C7194557D-CB5E-45B7-B905-82F27B7CB33F@apache.org%3E
活動
中國
7月2日 上海BigData Streaming第三次見面會
Powered by: BlogJava Copyright © Rosen