<rt id="bn8ez"></rt>
<label id="bn8ez"></label>

  • <span id="bn8ez"></span>

    <label id="bn8ez"><meter id="bn8ez"></meter></label>

    Feeling

        三人行,必有我師焉

       ::  :: 新隨筆 :: 聯系 ::  :: 管理 ::
      185 隨筆 :: 0 文章 :: 392 評論 :: 0 Trackbacks

    spark中有partition的概念(和slice是同一個概念,在spark1.2中官網已經做出了說明),一般每個partition對應一個task。在我的測試過程中,如果沒有設置spark.default.parallelism參數,spark計算出來的partition非常巨大,與我的cores非常不搭。我在兩臺機器上(8cores *2 +6g * 2)上,spark計算出來的partition達到2.8萬個,也就是2.9萬個tasks,每個task完成時間都是幾毫秒或者零點幾毫秒,執行起來非常緩慢。在我嘗試設置了 spark.default.parallelism 后,任務數減少到10,執行一次計算過程從minute降到20second。

    參數可以通過spark_home/conf/spark-default.conf配置文件設置。

    eg.

    spark.master  spark://master:7077 

    spark.default.parallelism  10 

    spark.driver.memory  2g 

    spark.serializer  org.apache.spark.serializer.KryoSerializer 

    spark.sql.shuffle.partitions  50

     

    下面是官網的相關描述:

    from:http://spark.apache.org/docs/latest/configuration.html

    Property NameDefaultMeaning
    spark.default.parallelism For distributed shuffle operations like reduceByKey and join, the largest number of partitions in a parent RDD. For operations likeparallelize with no parent RDDs, it depends on the cluster manager:
    • Local mode: number of cores on the local machine
    • Mesos fine grained mode: 8
    • Others: total number of cores on all executor nodes or 2, whichever is larger
    Default number of partitions in RDDs returned by transformations like joinreduceByKey, and parallelize when not set by user.

    from:http://spark.apache.org/docs/latest/tuning.html

    Level of Parallelism

    Clusters will not be fully utilized unless you set the level of parallelism for each operation high enough. Spark automatically sets the number of “map” tasks to run on each file according to its size (though you can control it through optional parameters to SparkContext.textFile, etc), and for distributed “reduce” operations, such as groupByKey and reduceByKey, it uses the largest parent RDD’s number of partitions. You can pass the level of parallelism as a second argument (see the spark.PairRDDFunctions documentation), or set the config propertyspark.default.parallelism to change the default. In general, we recommend 2-3 tasks per CPU core in your cluster.


    原文地址:http://www.cnblogs.com/wrencai/p/4231966.html

    posted on 2016-09-08 13:07 三人行,必有我師焉 閱讀(2205) 評論(0)  編輯  收藏

    只有注冊用戶登錄后才能發表評論。


    網站導航:
     
    GitHub |  開源中國社區 |  maven倉庫 |  文件格式轉換 
    主站蜘蛛池模板: 免费看国产精品3a黄的视频| 久久精品成人免费观看97| 99xxoo视频在线永久免费观看| 国产成人亚洲精品91专区手机| 国产精品hd免费观看| 久久精品国产亚洲Aⅴ蜜臀色欲 | 亚洲精品和日本精品| 拔擦拔擦8x华人免费久久| 亚洲妇女熟BBW| 牛牛在线精品免费视频观看| 免费又黄又爽又猛的毛片| xvideos永久免费入口| 在线观看亚洲av每日更新| 国产一级片免费看| 亚洲成综合人影院在院播放| 97人妻无码一区二区精品免费| 亚洲制服丝袜第一页| 国产一卡二卡≡卡四卡免费乱码| 二级毛片免费观看全程| 亚洲国产精品无码久久一线| 91精品免费久久久久久久久| 亚洲综合激情五月色一区| 亚洲国产精品日韩专区AV| 国产真人无码作爱视频免费| 久久综合亚洲鲁鲁五月天| 女性自慰aⅴ片高清免费| 日韩免费高清一级毛片| 亚洲av中文无码乱人伦在线r▽| 24小时日本韩国高清免费| 亚洲色成人网站WWW永久四虎 | 日本免费A级毛一片| 亚洲国产成人久久| 在线观看亚洲免费视频| 东北美女野外bbwbbw免费| 亚洲国产精品免费在线观看| 免费观看日本污污ww网站一区| 美女在线视频观看影院免费天天看 | 亚洲精品无码av天堂| 午夜影院免费观看| 亚洲成AV人片在WWW| 亚洲AV无码专区电影在线观看 |