Hadoop周刊 第 168 期
啟明星辰平臺和大數據整體組編譯
2016年5月1日
Kafka峰會本周在舊金山召開,不容置疑本周期刊將有大量的Kafka內容。除此以外,還有大量關于Impala性能、Kudu、Druid方面的文章。在其他新聞部分,Apache Apex成為了Apache的頂級項目,Qubole開源了其StreamX項目。
技術新聞
本文快速瀏覽了如何在可能或不可能創建新數據分區的情況下操作Spark RDD。尤其`mapValues`和`filter`會保存分區而`map`卻不會。
https://medium.com/@corentinanjuna/apache-spark-rdd-partitioning-preservation-2187a93bc33e
本文介紹了如何使用Conda構建獨立的Python環境(例如pandas插件),以便做為Spark job的一部分裝載到集群節點。經過這樣的處理,就能在沒有python原生包被安裝在主操作系統上的情況下運行PySpark job。這種方案同樣適用于SparkR。
http://quasiben.github.io/blog/2016/4/15/conda-spark/
Datadog博客有三篇監控Kafka的系列文章。第一篇詳細概括了broker、producer、consumers、ZooKeeper的關鍵度量指標。第二篇介紹了怎樣在JConsole和其他工具上通過JMX查看指標,第三篇介紹了Datadog集成方面的知識。
https://www.datadoghq.com/blog/monitoring-kafka-performance-metrics/
Salesforce撰文介紹了Kafka在他們組織內的成長史。最初,他們借助Kafka驅動了操作指標分析功能,漸漸地成為一個驅動眾多系統的大平臺。Salesforce運用Kafka在多個數據中心運行,并使用MirrorMaker在集群間復制和聚合數據。
https://medium.com/salesforce-engineering/expanding-visibility-with-apache-kafka-e305b12c4aba#.5k7j921o3
Metamarkets博客有一篇關于優化大規模分布式系統的有趣博文。Druid,他們的分布式數據倉庫,最近增加了一種"先進先出"的查詢模式,并在重型負載大集群間進行了測試。根據他們的假設,推測任何可能發生和收集到有趣的的指標。
https://metamarkets.com/2016/impact-on-query-speed-from-forced-processing-ordering-in-druid/
Google Cloud Big Data博客撰文介紹了BigQuery的內部存儲格式,容器,以及其它使得存儲數據更有效率的優化措施。
https://cloud.google.com/blog/big-data/2016/04/inside-capacitor-bigquerys-next-generation-columnar-storage-format
Apache Kudu(孵化中)博客概述了最近使用YCSB工具對系統性能分析和調優的結果。
http://getkudu.io/2016/04/26/ycsb.html
Impala 2.5無論是TPC基準測試還是其它方面均有顯著的性能提升。提升項包括運行時過濾器,LLVM代碼生成器對`SORT`和`DECIMAL`的支持,更快的metadata-only查詢,等等。
http://blog.cloudera.com/blog/2016/04/apache-impala-incubating-in-cdh-5-7-4x-faster-for-bi-workloads-on-apache-hadoop/
本文介紹了,為支持高可用性,如何對Hive Metastore配置MariaDB的。
https://developer.ibm.com/hadoop/blog/2016/04/26/bigsql-ha-configure-ha-hive-metastore-db-using-mariadb10-1/
Altiscale博客撰文介紹了尋找NodeGroup相關bug的過程(跟進三月的文章)。如果你因沒找到Hadoop(或其他分布式系統)的bug根結而氣餒,不要嘆氣。本文告訴你這的確困難,甚至需要程序員在銷售Hadoop服務的企業干活才能搞定。
https://www.altiscale.com/blog/part-1-2-investigation-analysis-and-resolution-of-nodegroup-performance-issues-on-bare-metal-hardware-clusters/
Netflix現在運行了超過4000個Kafka broker,橫跨36個集群。在云中運行Kafka需要一些權衡,團隊平衡了開銷和數據丟失(日數據丟失小于0.01%)。本文分享了團隊在AWS中運行Kafka的經驗,主要是一些典型問題,部署策略(小集群、隔離的zookeeper集群),集群級容錯,支持AWS availability zones,Kafka UI可視化等等。
http://techblog.netflix.com/2016/04/kafka-inside-keystone-pipeline.html
Amazon大數據博客撰文介紹了如何從Amazon EMR加密數據存放在S3中。這種集成方式同時支持客戶端和服務器端加密(借助于Amazon KMS)。
http://blogs.aws.amazon.com/bigdata/post/TxBQTAF 3X7VLEP/Process-Encrypted-Data-in-Amazon-EMR-with-Amazon-S3-and-AWS-KMS
TubeMogul介紹了他們大數據平臺的歷史,該平臺每月支撐萬億次數據分析請求。該團隊很早就運用Amazon EMR,導入了Storm實時處理技術,最終把大數據服務落在了Qubole上。
https://www.tubemogul.com/engineering/the-big-data-lifecycle-at-tubemogul/
Caffe,深度學習框架,與Spark進行了集成—CaffeOnSpark。MapR公司撰文介紹了如何在MapR YARN上運行,文章還包括了采用的性能優化手段。
https://www.mapr.com/blog/distributed-deep-learning-caffe-using-mapr-cluster
其他新聞
Apache Apex,大數據流式處理和批處理系統,現在成為了Apache軟件基金會的頂級項目。Apex去年8月進入孵化器。
https://blogs.apache.org/foundation/entry/the_apache_ software_foundation_announces90
Heroku Kafka,是一個分支于Heroku的Kafka管理服務。最近接近發布beta版。
https://blog.heroku.com/archives/2016/4/26/announcing-heroku-kafka-early-access
MapR博客上的一篇文章強調為什么性別多樣性是重要的,還提到了大數據論壇中的女性,本文旨在鼓勵女性投身于這一領域。“大數據論壇中的女性”研討會本周由MapR組織在圣何塞召開。
https://www.mapr.com/blog/case-women-big-data
產品發布
StreamX是一個來自Qubole的開源項目,它能從Kafka拷貝數據到Amazon S3這樣的目標存儲中。Qubole把StreamX作為一種管理服務提供。
http://www.qubole.com/blog/big-data/streamx/
SnappyData是一個為OLAP和OLTP查詢流式數據的新平臺(和公司)。SnappyData由Apache Spark和GemFire的內存存儲技術驅動。
http://www.infoworld.com/article/3062022/sql/apache-spark-powers-live-sql-analytics-in-snappydata.html
http://www.snappydata.io/
Apache Geode(孵化中)發布了1.0.0-incubating.M2版本,它是一個分布式數據平臺,瞄準高性能和低延遲。新版本提供了廣域網下的點對點連接等新特性。
http://mail-archives.apache.org/mod_mbox/incubator-geode-dev/201604.mbox/%3CCAFh%2B7k2eiK2TMGK sLqrY9CZDjxjYwiuTQ4QGUVC2s3geyJYwnA% 40mail.gmail.com%3E
Apache Knox發布了0.9.0版,它是Hadoop的REST API網關。新版本為Ranger和Ambari提供了UI界面支持,以及一些其它的提升和bug修復。
http://mail-archives.us.apache.org/mod_mbox/www-announce/201604.mbox/%3CCACRbFyjRF7zShb-NQ29d3FJ0hKZ57ts0Qfo31ffuNODpskwqPQ @mail.gmail.com%3E
活動
中國
無
Powered by: BlogJava Copyright © Rosen