Hadoop周刊 第 172 期
啟明星辰平臺和大數據總體組編譯
2016年5月22日
本周主要關注流式計算—— Twitter和Cloudera介紹了他們新的流式計算框架,有文章介紹了Apache Flink的流式SQL,DataTorrent介紹了Apache Apex容錯機制,還有Concord這樣新的流式計算框架,另外還有Apache Kafka的0.10版。其他新聞方面,Apache孵化器有新動向——Apache TinkerPop和Apache Zeppelin孵化成為頂級項目,Tephra進入孵化器。除了上述內容,Apache Spark、Apache HBase、Apache Drill、Apache Ambari等也有新文章。
技術新聞
DataTorrent博客撰文介紹了Apache Apex在讀寫數據文件時的容錯機制。Apex是專門處理流式數據的,流式計算有一些微妙但重要的細節需要考慮。例如使用HDFS輸出時,HDFS的租約機制會引發問題。
https://www.datatorrent.com/blog/fault-tolerant-file-processing/
Databricks博客介紹了Spark 2.0中Tungsten代碼生成引擎帶來的性能提升。博文舉例說明了由于虛擬函數的管理,更好地利用CPU寄存器和循環展開,所以代碼生成引擎能更快的生成代碼。除了Databricks的博文外,Morning Paper還談到以上技術其實是受到VLDB論文的啟發。
https://databricks.com/blog/2016/05/23/apache-spark-as-a-compiler-joining-a-billion-rows-per-second-on-a-laptop.html
https://blog.acolyer.org/2016/05/23/efficiently-compiling-efficient-query-plans-for-modern-hardware/
StreamScope是微軟流式處理系統,是Morning Paper本周撰寫的另一個流式計算文章。介紹了該系統的特征——吞吐量/集群大小、編程模型(SQL)、時間模型、語義學/保證,以及微軟產品中的應用。
https://blog.acolyer.org/2016/05/24/streamscope-continuous-reliable-distributed-processing-of-big-data-streams/
Apache博客撰文介紹了HubSpot團隊對Apache HBase的G1GC調優方面的經驗。本文回顧HubSpot如何嘗試和保障穩定性、如何保障99%的性能、如何縮短花在垃圾回收上的時間。該團隊使用很多技巧,很好地決絕了錯綜復雜的GC算法。本文最后,還一步步示范了HBase的G1GC調優。
https://blogs.apache.org/hbase/entry/tuning_g1gc_for_your_hbase
LinkedIn撰文闡述了調試Kafka偏移量管理問題的諸多困難。本文聚焦了兩個所謂"offset rewind"事件的癥狀,如何在監控過程中檢測到這類事件,以及導致這兩個事件的根本原因(及解決方案)。
https://engineering.linkedin.com/blog/2016/05/kafkaesque-days-at-linkedin--part-1
Databricks博客發布了使用Apache Spark進行基因變異分析系列文章的第三部分也是最后一篇。本文從準備(把文件轉換到Parquet并加載進Spark RRD)到如何加載基因型數據再到運行kmeans聚類算法基于基因型特征預測地理種群。
https://databricks.com/blog/2016/05/24/predicting-geographic-population-using-genome-variants-and-k-means.html
許多批處理大數據生態系統已從自定義API回到SQL上,所以如果流式處理框架也發生了同樣的變化,一定很有趣。本文,Apache Flink團隊介紹他們計劃支持流式SQL。Flink已經有了Table API,他們利用Apache Calcite提供了對SQL的支持。對于windowing,他們計劃用Calcite的流式SQL擴展。最初對SQL的支持將在1.1.0版中體現,在1.2.0版加強。
http://flink.apache.org/news/2016/05/24/stream-sql.html
本文介紹了Apache Drill的XML插件。盡管還沒有和Drill集成在一起,但它相當容易被編譯成jar和配置對XML的支持。
https://www.mapr.com/blog/how-use-xml-plugin-apache-drill
Hortonworks博客簡略介紹了Ambari監控度量系統的架構,最近加入了Grafana作為其前端儀表盤。該系統使用Apache Phoenix和Apache HBase作為存儲支撐,所以是可以橫向擴展的。
http://hortonworks.com/blog/hood-ambari-metrics-grafana/
這篇教程介紹了怎樣在Amazon EMR上使用Spark SQL與Hue、Apache Zeppelin配合運行SQL查詢存儲在S3中跨制表符分割的數據。本文最后展示了如何從Spark向DynamoDB存儲數據。
http://blogs.aws.amazon.com/bigdata/post/Tx2D93GZRHU3TES/Using-Spark-SQL-for-ETL
Heroku團隊分享了他們使用最新版Apache Kafka的體驗——才引入的timestamp字段(8字節)會導致一些反直覺的性能變化。
https://engineering.heroku.com/blogs/2016-05-27-apache-kafka-010-evaluating-performance-in-distributed-systems/
其他新聞
O'Reilly數據播客秀就Spark 2.0中結構化流式計算方面的問題采訪了來自Databricks的Michael Armbrust。網站上的一篇文章選擇引用了其中的話題—— Spark SQL、結構化流式計算的目標、端到端管道的保證、對在線處理運用Spark機器學習算法。
https://www.oreilly.com/ideas/structured-streaming-comes-to-apache-spark-2-0
本周兩個大數據項目從Apache孵化器孵化完成——Apache TinkerPop和Apache Zeppelin。TinkerPop是圖計算框架,Zeppelin是面向數據分析基于web的notebook。
https://blogs.apache.org/foundation/entry/the_apache_software_foundation_announces91
https://blogs.apache.org/foundation/entry/the_apache_software_foundation_announces92
Tephra,HBase的事務引擎進入了Apache孵化器。Tephra最初由Cask的團隊創建,目前僅和Apache Phoenix進行了集成。
http://blog.cask.co/2016/05/tephra-a-transaction-engine-for-hbase-moves-to-apache-incubation/
TechRepublic撰文介紹了Concord.io,一個由C++開發的流式處理框架。旨在填補高性能流式計算市場的空缺。
http://www.techrepublic.com/article/could-concord-topple-apache-spark-from-its-big-data-throne/
產品發布
Apache Avro本周發布了1.8.1版。修復了超過20個bug和一些其它進步。
http://mail-archives.us.apache.org/mod_mbox/www-announce/201605.mbox/%3CCAO4re1nYMm79WQ2LUeODWjHmJ9EiYOF=mty6p2aiq-S_4R95iQ@mail.gmail.com%3E
Confluent發布了基于librdkafka開發的Kafka Python客戶端。
https://pypi.python.org/pypi/confluent-kafka/0.9.1.1
伴隨著新的Kafka 流式計算方式,Apache Kafka 0.10版發布了。新版本支持了機架感知和消息中的timestamp,提升了SASL和Kafka Connect等。
http://mail-archives.us.apache.org/mod_mbox/www-announce/201605.mbox/%3CCAPuboUuRyCRxDp5CLjv2yVM77SpYFF+HdnBeiiyeumYTJNpY4g@mail.gmail.com%3E
Confluent發布了基于Apache Kafka 0.10的Confluent Platform 3.0版。除了Kafka的核心特性,Confluent Platform還有一個商業組件為Kafka Connect提供配置工具和端到端流監控。
http://www.confluent.io/blog/announcing-apache-kafka-0.10-and-confluent-platform-3.0
Apache Kylin,大數據OLAP引擎,發布了1.5.2版。作為一次補丁級的發布,1.5.2有不少新特性/提升/bug修復,包括支持CDH 5.7和MapR。
http://mail-archives.us.apache.org/mod_mbox/www-announce/201605.mbox/%3CCA+LQBaTDxb4wVYVvtOC22gMbJ0p9cvhAWzEY_x2n1oNGvEDPSQ@mail.gmail.com%3E
Twitter開源了他們的流式處理系統Heron。Heron是Twitter用于替換Apache Storm的產品,發力點在性能、調試以及開發人員生產率。
https://blog.twitter.com/2016/open-sourcing-twitter-heron
Envelope是來自于Cloudera Labs的新項目,它提供了基于配置文件的流式ETL處理過程。構建在Spark streaming之上,Envelope最近正在研發面向Kafka和Kudu的連接器。
http://blog.cloudera.com/blog/2016/05/new-in-cloudera-labs-envelope-for-apache-spark-streaming/
活動
中國
Spark Meetup 4 (杭州) – 周日, 6月5日
http://www.meetup.com/Hangzhou-Apache-Spark-Meetup/events/231071384/
Powered by: BlogJava Copyright © Rosen