Hadoop周刊 第 175 期
啟明星辰平臺和大數據總體組編譯
2016年6月19日
Hadoop峰會已過去一周了,我們已看到有多個產品(項目)敲定了發布時間。所以在技術新聞部分,有關于Hadoop Kerberos認證的內容另外還有Salsify應用Avro的文章。在產品發布部分,包括Yandex新近開源的列式數據庫在內的多個項目均有新版本發布。
技術新聞
OpenCore博客撰文示范了多種Hadoop Kerberos認證協議調試工具。尤其示范了如何使用UserGropuInformation的“main()”方法導出一些有用的調試信息。
http://www.opencore.com/blog/2016/5/user-name-handling-in-hadoop/
YARN系列文章的第四部分,Cloduera博客介紹了如何配置公平調度隊列。尤其對資源約束設置、隊列安置策略和搶占進行了詳解。
http://blog.cloudera.com/blog/2016/06/untangling-apache-hadoop-yarn-part-4-fair-scheduler-queue-basics/
Salsify基于Apache Kafka構建了一個異步微服務架構,并采用Apache Avro進行數據序列化。該應用使用Ruby開發,他們創建了多個新工具使得Avro能和Ruby語言很好的配合。本文介紹了這些工具和它們的價值:avro-builder用于定義記錄、基于postgres的模式注冊表,avromatic則從avro schema生成模型。
http://blog.salsify.com/engineering/adventures-in-avro
Apache Drill可以動態推斷模式,還支持多模式(但相互兼容)數據。這種組合使得一些有趣的用例得以實現,例如跨多個不同模式的json文件查詢。MapR博客探究了這些特性并進行了示范。
https://www.mapr.com/blog/sql-query-mixed-schema-data-using-apache-drill
本教程展示了如何將Druid與Apache Kafka結合構建流式分析和可視化(借助Pivot,Druid的web UI)應用。
http://www.confluent.io/blog/building-a-streaming-analytics-stack-with-apache-kafka-and-druid
Apache Beam(孵化中)博客撰文介紹了他們在連接Apache Flink批處理集群方面的成果。Beam是一個開源SDK,最初來自于Google,用于暴露后端未知數據管道API。
http://beam.incubator.apache.org/blog/2016/06/13/flink-batch-runner-milestone.html
Cask Hydrator是一個通過UI界面采用拖拽方式構建數據管道的工具。本教程也演示了如何使用Hydrator把數據從MySQL導入到HDFS。
http://blog.cask.co/2016/06/bringing-relational-data-into-data-lakes/
Databricks撰文介紹了即將發布的Apache Spark 2.0中新的SQL子查詢功能。有趣的是,本文以手冊形式呈現,最直截了當的展現了代碼和范例數據。
https://databricks.com/blog/2016/06/17/sql-subqueries-in-apache-spark-2-0.html
Apache Kudu(孵化中)博客撰寫了在單集群節點使用Raft的文章,借此動態擴展到多主節點集群。
http://getkudu.io/2016/06/17/raft-consensus-single-node.html
其他新聞
本文指出Apache Spark社區如果不用心經營,可能會重走因碎片化導致Apache Hadoop生態系統混亂的老路。舉例來說,最新版本的CDH和HDP支持不同版本的Spark。
https://techcrunch.com/2016/06/12/spark-fragmentation-undermines-community/
New Stack撰寫了一篇關于Concord的文章,Concord是一個構建在Apache Mesos上新的流式處理框架(公開測試狀態)。Concord使用C++開發,支持動態拓撲(無需停機實現管道的增加和減少)。
http://thenewstack.io/concord-leverages-mesos-high-performance-stream-processing/
隨著Databricks社區版的正式發布,Databricks發布了使用Databricks編寫Apache Spark應用程序系列教程的第一篇。
https://databricks.com/blog/2016/06/15/an-introduction-to-writing-apache-spark-applications-on-databricks.html
Hadoop圣何塞峰會于幾周前召開,期間舉行了題為“大數據行業中的女性”專場午宴。Hortonworks博客特意采訪了午宴主持人Hortonworks CMO:Ingrid Burton。
http://hortonworks.com/blog/summer-hortonworks-part-2-wibd-assertive-innovative-take-risks/
產品發布
Apache SystemML(孵化中)最近發布了0.10.0版。SystemML是一個機器學習框架,由多個項目在背后支撐,包括Apache Spark和Apache Hadoop。本次發布包括新的Spark Matrix Block類型、支持深度學習、性能上的提升、新的KNN算法等等。
http://systemml.apache.org/0.10.0-incubating/release_notes.html
Apache Mahout,另一個機器學習框架發布了0.12.2版。本次發布向著集成Apache Zeppelin可視化和支持notebook的目標邁進了一步。
http://mail-archives.us.apache.org/mod_mbox/www-announce/201606.mbox/%3CCAOtpBjgBAuQs5FiX5X_5A+Rd-A1fVz0R7SKttGe4cJuCLRiGww@mail.gmail.com%3E
Qubole宣布他們的HBase-as-a-Service已經在AWS上提供。它為長時運行集群提供了許多漂亮的特性。支持Hannibal和其它監控工具,集成了Apache Zeppelin,并能通過節點引導程序與OpenTSDB和Apache Phoenix配置。
https://www.qubole.com/blog/product/quboles-hbase-as-a-service-is-generally-available-on-aws/
Altiscale發布了Altiscale Insight Cloud實時版。本系統由Apache HBase和Spark Streaming支撐。
https://www.altiscale.com/blog/announcing-the-altiscale-insight-cloud-real-time-edition/
`hs2client`是一個為Apache Hive和Apache Impala(孵化中)提供的新C++庫。除了支持C++,這個庫還綁定了python,可以在pandas中把數據讀到DataFrame。
http://blog.cloudera.com/blog/2016/06/announcing-hs2client-a-fast-new-c-python-thrift-client-for-impala-and-hive/
MapR在其發行版中支持了Apache Spark 2.0開發者預覽版。
https://www.mapr.com/blog/spark-20-now-developer-preview-mode-mapr-platform
Apache Beam發布了其0.1.0孵化版,是本項目加入Apache孵化器以來首次發布。
http://beam.incubator.apache.org/beam/release/2016/06/15/first-release.html
Yandex開源了ClickHouse,一個列式分析數據庫。本系統為橫向和縱向擴展而生。支持復雜數據類型(例如數組)和近似查詢。該團隊還發布了與其它數據庫相比的基準測試結果。
https://clickhouse.yandex/
活動
中國
Powered by: BlogJava Copyright © Rosen