亚洲免费日韩无码系列,亚洲高清不卡视频,大胆亚洲人体视频

Hadoop周刊第 175 期

啟明星辰平臺和大數據總體組編譯

2016年6月19日

Hadoop峰會已過去一周了，我們已看到有多個產品（項目）敲定了發布時間。所以在技術新聞部分，有關于Hadoop Kerberos認證的內容另外還有Salsify應用Avro的文章。在產品發布部分，包括Yandex新近開源的列式數據庫在內的多個項目均有新版本發布。

技術新聞

OpenCore博客撰文示范了多種Hadoop Kerberos認證協議調試工具。尤其示范了如何使用UserGropuInformation的“main()”方法導出一些有用的調試信息。

http://www.opencore.com/blog/2016/5/user-name-handling-in-hadoop/

YARN系列文章的第四部分，Cloduera博客介紹了如何配置公平調度隊列。尤其對資源約束設置、隊列安置策略和搶占進行了詳解。

http://blog.cloudera.com/blog/2016/06/untangling-apache-hadoop-yarn-part-4-fair-scheduler-queue-basics/

Salsify基于Apache Kafka構建了一個異步微服務架構，并采用Apache Avro進行數據序列化。該應用使用Ruby開發，他們創建了多個新工具使得Avro能和Ruby語言很好的配合。本文介紹了這些工具和它們的價值：avro-builder用于定義記錄、基于postgres的模式注冊表，avromatic則從avro schema生成模型。

http://blog.salsify.com/engineering/adventures-in-avro

Apache Drill可以動態推斷模式，還支持多模式(但相互兼容)數據。這種組合使得一些有趣的用例得以實現，例如跨多個不同模式的json文件查詢。MapR博客探究了這些特性并進行了示范。

https://www.mapr.com/blog/sql-query-mixed-schema-data-using-apache-drill

本教程展示了如何將Druid與Apache Kafka結合構建流式分析和可視化（借助Pivot，Druid的web UI）應用。

http://www.confluent.io/blog/building-a-streaming-analytics-stack-with-apache-kafka-and-druid

Apache Beam（孵化中）博客撰文介紹了他們在連接Apache Flink批處理集群方面的成果。Beam是一個開源SDK，最初來自于Google，用于暴露后端未知數據管道API。

http://beam.incubator.apache.org/blog/2016/06/13/flink-batch-runner-milestone.html

Cask Hydrator是一個通過UI界面采用拖拽方式構建數據管道的工具。本教程也演示了如何使用Hydrator把數據從MySQL導入到HDFS。

http://blog.cask.co/2016/06/bringing-relational-data-into-data-lakes/

Databricks撰文介紹了即將發布的Apache Spark 2.0中新的SQL子查詢功能。有趣的是，本文以手冊形式呈現，最直截了當的展現了代碼和范例數據。

https://databricks.com/blog/2016/06/17/sql-subqueries-in-apache-spark-2-0.html

Apache Kudu（孵化中）博客撰寫了在單集群節點使用Raft的文章，借此動態擴展到多主節點集群。

http://getkudu.io/2016/06/17/raft-consensus-single-node.html

其他新聞

本文指出Apache Spark社區如果不用心經營，可能會重走因碎片化導致Apache Hadoop生態系統混亂的老路。舉例來說，最新版本的CDH和HDP支持不同版本的Spark。

https://techcrunch.com/2016/06/12/spark-fragmentation-undermines-community/

New Stack撰寫了一篇關于Concord的文章，Concord是一個構建在Apache Mesos上新的流式處理框架（公開測試狀態）。Concord使用C++開發，支持動態拓撲（無需停機實現管道的增加和減少）。

http://thenewstack.io/concord-leverages-mesos-high-performance-stream-processing/

隨著Databricks社區版的正式發布，Databricks發布了使用Databricks編寫Apache Spark應用程序系列教程的第一篇。

https://databricks.com/blog/2016/06/15/an-introduction-to-writing-apache-spark-applications-on-databricks.html

Hadoop圣何塞峰會于幾周前召開，期間舉行了題為“大數據行業中的女性”專場午宴。Hortonworks博客特意采訪了午宴主持人Hortonworks CMO：Ingrid Burton。

http://hortonworks.com/blog/summer-hortonworks-part-2-wibd-assertive-innovative-take-risks/

產品發布

Apache SystemML（孵化中）最近發布了0.10.0版。SystemML是一個機器學習框架，由多個項目在背后支撐，包括Apache Spark和Apache Hadoop。本次發布包括新的Spark Matrix Block類型、支持深度學習、性能上的提升、新的KNN算法等等。

http://systemml.apache.org/0.10.0-incubating/release_notes.html

Apache Mahout，另一個機器學習框架發布了0.12.2版。本次發布向著集成Apache Zeppelin可視化和支持notebook的目標邁進了一步。

http://mail-archives.us.apache.org/mod_mbox/www-announce/201606.mbox/%3CCAOtpBjgBAuQs5FiX5X_5A+Rd-A1fVz0R7SKttGe4cJuCLRiGww@mail.gmail.com%3E

Qubole宣布他們的HBase-as-a-Service已經在AWS上提供。它為長時運行集群提供了許多漂亮的特性。支持Hannibal和其它監控工具，集成了Apache Zeppelin，并能通過節點引導程序與OpenTSDB和Apache Phoenix配置。

https://www.qubole.com/blog/product/quboles-hbase-as-a-service-is-generally-available-on-aws/

Altiscale發布了Altiscale Insight Cloud實時版。本系統由Apache HBase和Spark Streaming支撐。

https://www.altiscale.com/blog/announcing-the-altiscale-insight-cloud-real-time-edition/

`hs2client`是一個為Apache Hive和Apache Impala（孵化中）提供的新C++庫。除了支持C++，這個庫還綁定了python，可以在pandas中把數據讀到DataFrame。

http://blog.cloudera.com/blog/2016/06/announcing-hs2client-a-fast-new-c-python-thrift-client-for-impala-and-hive/

MapR在其發行版中支持了Apache Spark 2.0開發者預覽版。

https://www.mapr.com/blog/spark-20-now-developer-preview-mode-mapr-platform

Apache Beam發布了其0.1.0孵化版，是本項目加入Apache孵化器以來首次發布。

http://beam.incubator.apache.org/beam/release/2016/06/15/first-release.html

Yandex開源了ClickHouse，一個列式分析數據庫。本系統為橫向和縱向擴展而生。支持復雜數據類型（例如數組）和近似查詢。該團隊還發布了與其它數據庫相比的基準測試結果。

https://clickhouse.yandex/

活動

中國

posted on 2016-07-01 15:44 Rosen 閱讀(756) 評論(0) 編輯收藏

新用戶注冊刷新評論列表


只有注冊用戶登錄后才能發表評論。




網站導航: 博客園 IT新聞 Chat2DB C++博客博問管理

成都心情

公告

隨筆分類(91)

隨筆檔案(99)

文章分類(2)

友情鏈接

積分與排名

最新評論

閱讀排行榜

評論排行榜