<rt id="bn8ez"></rt>
<label id="bn8ez"></label>

  • <span id="bn8ez"></span>

    <label id="bn8ez"><meter id="bn8ez"></meter></label>

    paulwong

    量化大模型工具

    VLLM量化推理
    https://llmc-zhcn.readthedocs.io/en/latest/backend/vllm.html#id1

    安裝此工具前需安裝兩個(gè)包:
    sudo apt-get install cmake
    sudo apt-get install pkgconfig

    配置huggingface鏡像地址:
    export HF_ENDPOINT=https://hf-mirror.com

    下載代碼庫, 并安裝python依賴
    git clone https://github.com/ModelTC/llmc.git
    cd llmc/
    pip install -r requirements.txt

    找到量化方法的配置文件, 并作修改
    base:
        seed: &seed 42
    model:
        type: Llama
        path: /home/paul/.cache/huggingface/models/models--unsloth--llama-3-8b-Instruct-lawdata
        torch_dtype: auto
    quant:
        method: RTN
        weight:
            bit: 8
            symmetric: True
            granularity: per_group
            group_size: 128
            need_pack: True
    eval:
        eval_pos: [fake_quant]
        name: wikitext2
        download: True
        path: /home/paul/paulwong/work/workspaces/llmc/dataset
        bs: 1
        seq_len: 2048
        inference_per_block: False
    save:
        save_vllm: True
        save_path: /home/paul/.cache/huggingface/models/models--unsloth--llama-3-8b-Instruct-lawdata-quantization

    找到run_llmc.sh, 并作修改
    #!/bin/bash

    # export CUDA_VISIBLE_DEVICES=0,1

    llmc=/home/paul/paulwong/work/workspaces/llmc
    export PYTHONPATH=$llmc:$PYTHONPATH

    # task_name=awq_w_only
    # config=${llmc}/configs/quantization/methods/Awq/awq_w_only.yml
    task_name=rtn_for_vllm
    config=${llmc}/configs/quantization/backend/vllm/rtn_w8a16.yml

    nnodes=1
    nproc_per_node=1


    find_unused_port() {
        while true; do
            port=$(shuf -i 10000-60000 -n 1)
            if ! ss -tuln | grep -q ":$port "; then
                echo "$port"
                return 0
            fi
        done
    }
    UNUSED_PORT=$(find_unused_port)


    MASTER_ADDR=127.0.0.1
    MASTER_PORT=$UNUSED_PORT
    task_id=$UNUSED_PORT

    nohup \
    torchrun \
    --nnodes $nnodes \
    --nproc_per_node $nproc_per_node \
    --rdzv_id $task_id \
    --rdzv_backend c10d \
    --rdzv_endpoint $MASTER_ADDR:$MASTER_PORT \
    ${llmc}/llmc/__main__.py --config $config --task_id $task_id \
    > ${task_name}.log 2>&1 &

    sleep 2
    ps aux | grep '__main__.py' | grep $task_id | awk '{print $2}' > ${task_name}.pid

    # You can kill this program by 
    # xargs kill -9 < xxx.pid
    # xxx.pid is ${task_name}.pid file

    執(zhí)行量化操作
    bash scripts/run_llmc.sh




    posted on 2025-01-15 18:00 paulwong 閱讀(89) 評(píng)論(0)  編輯  收藏 所屬分類: AI-QUANTIZATION


    只有注冊(cè)用戶登錄后才能發(fā)表評(píng)論。


    網(wǎng)站導(dǎo)航:
     
    主站蜘蛛池模板: 亚洲第一永久AV网站久久精品男人的天堂AV| 久久久久亚洲AV无码专区体验| 久久国产成人亚洲精品影院| 亚洲色欲色欱wwW在线| 无限动漫网在线观看免费| 亚洲综合综合在线| 免费在线观看一区| 亚洲精品老司机在线观看| xxxx日本在线播放免费不卡| 毛色毛片免费观看| 亚洲精品无码久久久久YW| 精品国产一区二区三区免费看| 亚洲乱码日产精品一二三| 国产午夜无码视频免费网站| 亚洲国产精品成人精品软件 | 免费不卡中文字幕在线| 亚洲男女性高爱潮网站| 久久国产免费观看精品3| 亚洲一卡2卡4卡5卡6卡在线99| 国产成人A在线观看视频免费 | 一级做a爰性色毛片免费| 国产亚洲色婷婷久久99精品| 免费人成网站在线观看不卡 | 亚洲精品色在线网站| 国产亚洲精品国看不卡| 午夜网站在线观看免费完整高清观看| 亚洲视频在线免费看| 日本卡1卡2卡三卡免费| 中文字幕中韩乱码亚洲大片 | 久久经典免费视频| 91亚洲国产成人久久精品网站 | 日韩免费在线观看| 亚洲日韩国产欧美一区二区三区| 国产精品麻豆免费版| a毛片免费在线观看| 亚洲国产精品高清久久久| 亚洲网站在线免费观看| 亚洲午夜成激人情在线影院| 日本无卡码免费一区二区三区| 手机看片国产免费永久| 亚洲无吗在线视频|