亚洲а∨天堂久久精品,国产91成人精品亚洲精品,亚洲综合色区在线观看

Hadoop周刊第 168 期

啟明星辰平臺和大數據整體組編譯

2016年5月1日

Kafka峰會本周在舊金山召開，不容置疑本周期刊將有大量的Kafka內容。除此以外，還有大量關于Impala性能、Kudu、Druid方面的文章。在其他新聞部分，Apache Apex成為了Apache的頂級項目，Qubole開源了其StreamX項目。

技術新聞

本文快速瀏覽了如何在可能或不可能創建新數據分區的情況下操作Spark RDD。尤其`mapValues`和`filter`會保存分區而`map`卻不會。

https://medium.com/@corentinanjuna/apache-spark-rdd-partitioning-preservation-2187a93bc33e

本文介紹了如何使用Conda構建獨立的Python環境（例如pandas插件），以便做為Spark job的一部分裝載到集群節點。經過這樣的處理，就能在沒有python原生包被安裝在主操作系統上的情況下運行PySpark job。這種方案同樣適用于SparkR。

http://quasiben.github.io/blog/2016/4/15/conda-spark/

Datadog博客有三篇監控Kafka的系列文章。第一篇詳細概括了broker、producer、consumers、ZooKeeper的關鍵度量指標。第二篇介紹了怎樣在JConsole和其他工具上通過JMX查看指標，第三篇介紹了Datadog集成方面的知識。

https://www.datadoghq.com/blog/monitoring-kafka-performance-metrics/

Salesforce撰文介紹了Kafka在他們組織內的成長史。最初，他們借助Kafka驅動了操作指標分析功能，漸漸地成為一個驅動眾多系統的大平臺。Salesforce運用Kafka在多個數據中心運行，并使用MirrorMaker在集群間復制和聚合數據。

https://medium.com/salesforce-engineering/expanding-visibility-with-apache-kafka-e305b12c4aba#.5k7j921o3

Metamarkets博客有一篇關于優化大規模分布式系統的有趣博文。Druid，他們的分布式數據倉庫，最近增加了一種"先進先出"的查詢模式，并在重型負載大集群間進行了測試。根據他們的假設，推測任何可能發生和收集到有趣的的指標。

https://metamarkets.com/2016/impact-on-query-speed-from-forced-processing-ordering-in-druid/

Google Cloud Big Data博客撰文介紹了BigQuery的內部存儲格式，容器，以及其它使得存儲數據更有效率的優化措施。

https://cloud.google.com/blog/big-data/2016/04/inside-capacitor-bigquerys-next-generation-columnar-storage-format

Apache Kudu（孵化中）博客概述了最近使用YCSB工具對系統性能分析和調優的結果。

http://getkudu.io/2016/04/26/ycsb.html

Impala 2.5無論是TPC基準測試還是其它方面均有顯著的性能提升。提升項包括運行時過濾器，LLVM代碼生成器對`SORT`和`DECIMAL`的支持，更快的metadata-only查詢，等等。

http://blog.cloudera.com/blog/2016/04/apache-impala-incubating-in-cdh-5-7-4x-faster-for-bi-workloads-on-apache-hadoop/

本文介紹了，為支持高可用性，如何對Hive Metastore配置MariaDB的。

https://developer.ibm.com/hadoop/blog/2016/04/26/bigsql-ha-configure-ha-hive-metastore-db-using-mariadb10-1/

Altiscale博客撰文介紹了尋找NodeGroup相關bug的過程（跟進三月的文章）。如果你因沒找到Hadoop（或其他分布式系統）的bug根結而氣餒，不要嘆氣。本文告訴你這的確困難，甚至需要程序員在銷售Hadoop服務的企業干活才能搞定。

https://www.altiscale.com/blog/part-1-2-investigation-analysis-and-resolution-of-nodegroup-performance-issues-on-bare-metal-hardware-clusters/

Netflix現在運行了超過4000個Kafka broker，橫跨36個集群。在云中運行Kafka需要一些權衡，團隊平衡了開銷和數據丟失（日數據丟失小于0.01%）。本文分享了團隊在AWS中運行Kafka的經驗，主要是一些典型問題，部署策略（小集群、隔離的zookeeper集群），集群級容錯，支持AWS availability zones，Kafka UI可視化等等。

http://techblog.netflix.com/2016/04/kafka-inside-keystone-pipeline.html

Amazon大數據博客撰文介紹了如何從Amazon EMR加密數據存放在S3中。這種集成方式同時支持客戶端和服務器端加密（借助于Amazon KMS）。

http://blogs.aws.amazon.com/bigdata/post/TxBQTAF 3X7VLEP/Process-Encrypted-Data-in-Amazon-EMR-with-Amazon-S3-and-AWS-KMS

TubeMogul介紹了他們大數據平臺的歷史，該平臺每月支撐萬億次數據分析請求。該團隊很早就運用Amazon EMR，導入了Storm實時處理技術，最終把大數據服務落在了Qubole上。

https://www.tubemogul.com/engineering/the-big-data-lifecycle-at-tubemogul/

Caffe，深度學習框架，與Spark進行了集成—CaffeOnSpark。MapR公司撰文介紹了如何在MapR YARN上運行，文章還包括了采用的性能優化手段。

https://www.mapr.com/blog/distributed-deep-learning-caffe-using-mapr-cluster

其他新聞

Apache Apex，大數據流式處理和批處理系統，現在成為了Apache軟件基金會的頂級項目。Apex去年8月進入孵化器。

https://blogs.apache.org/foundation/entry/the_apache_ software_foundation_announces90

Heroku Kafka，是一個分支于Heroku的Kafka管理服務。最近接近發布beta版。

https://blog.heroku.com/archives/2016/4/26/announcing-heroku-kafka-early-access

MapR博客上的一篇文章強調為什么性別多樣性是重要的，還提到了大數據論壇中的女性，本文旨在鼓勵女性投身于這一領域。“大數據論壇中的女性”研討會本周由MapR組織在圣何塞召開。

https://www.mapr.com/blog/case-women-big-data

產品發布

StreamX是一個來自Qubole的開源項目，它能從Kafka拷貝數據到Amazon S3這樣的目標存儲中。Qubole把StreamX作為一種管理服務提供。

http://www.qubole.com/blog/big-data/streamx/

SnappyData是一個為OLAP和OLTP查詢流式數據的新平臺（和公司）。SnappyData由Apache Spark和GemFire的內存存儲技術驅動。

http://www.infoworld.com/article/3062022/sql/apache-spark-powers-live-sql-analytics-in-snappydata.html

http://www.snappydata.io/

Apache Geode（孵化中）發布了1.0.0-incubating.M2版本，它是一個分布式數據平臺，瞄準高性能和低延遲。新版本提供了廣域網下的點對點連接等新特性。

http://mail-archives.apache.org/mod_mbox/incubator-geode-dev/201604.mbox/%3CCAFh%2B7k2eiK2TMGK sLqrY9CZDjxjYwiuTQ4QGUVC2s3geyJYwnA% 40mail.gmail.com%3E

Apache Knox發布了0.9.0版，它是Hadoop的REST API網關。新版本為Ranger和Ambari提供了UI界面支持，以及一些其它的提升和bug修復。

http://mail-archives.us.apache.org/mod_mbox/www-announce/201604.mbox/%3CCACRbFyjRF7zShb-NQ29d3FJ0hKZ57ts0Qfo31ffuNODpskwqPQ @mail.gmail.com%3E

活動

中國

無

posted on 2016-05-07 23:37 Rosen 閱讀(693) 評論(0) 編輯收藏

新用戶注冊刷新評論列表


只有注冊用戶登錄后才能發表評論。




網站導航: 博客園 IT新聞 Chat2DB C++博客博問

成都心情

公告

隨筆分類(91)

隨筆檔案(99)

文章分類(2)

友情鏈接

積分與排名

最新評論

閱讀排行榜

評論排行榜