蘑菇書EasyRL
李宏毅老師的《深度強化學(xué)習(xí)》是強化學(xué)習(xí)領(lǐng)域經(jīng)典的中文視頻之一。李老師幽默風(fēng)趣的上課風(fēng)格讓晦澀難懂的強化學(xué)習(xí)理論變得輕松易懂,他會通過很多有趣的例子來講解強化學(xué)習(xí)理論。比如老師經(jīng)常會用玩 Atari 游戲的例子來講解強化學(xué)習(xí)算法。此外,為了教程的完整性,我們整理了周博磊老師的《強化學(xué)習(xí)綱要》、李科澆老師的《世界冠軍帶你從零實踐強化學(xué)習(xí)》以及多個強化學(xué)習(xí)的經(jīng)典資料作為補充。對于想入門強化學(xué)習(xí)又想看中文講解的人來說絕對是非常推薦的。
本教程也稱為“蘑菇書”,寓意是希望此書能夠為讀者注入活力,讓讀者“吃”下這本蘑菇之后,能夠饒有興致地探索強化學(xué)習(xí),像馬里奧那樣愈加強大,繼而在人工智能領(lǐng)域覓得意外的收獲。
基于機器學(xué)習(xí)的2022世界杯預(yù)測實戰(zhàn)
AI 競彩賽事 預(yù)測工具
使用trl庫做微調(diào)時, 對數(shù)據(jù)集的要求是:
如果是多輪對話場景:
jsonl 文件,且需符合以下要求:
1.每行是一個獨立的 JSON 對象;
2 每個對象須包含一個鍵名為 messages 的數(shù)組,數(shù)組不能為空;
3.messages 中每個元素必須包含 role 和 content 兩個字段:
4.role 只能是 system,user 或 assisiant;
5.如果有 system 角色消息, 需在數(shù)組首位;
6.第一條非 system 消息必須是 user 角色;
7.user 和 assisiant 角色的消息應(yīng)當(dāng)交替、成對出現(xiàn),不少于1對;
如果是指令微調(diào)場景:
jsonl 文件,且需符合以下要求:
1.每行是一個獨立的 JSON 對象;
2 每個對象須包含且只能包含一個鍵名為 text 的鍵值對,值不能為空;
大模型開發(fā)出來后, 一般要經(jīng)過以下幾個階段的訓(xùn)練:
預(yù)訓(xùn)練(Pre-Trained)
單純提供文本: {"text":"..."}
訓(xùn)練模型由第一個文字開始, 預(yù)測后面的文字, 直到結(jié)束.
這種模型只會做完成文本的任務(wù)
監(jiān)督微調(diào)(Supervised Fine Turning)
為了使模型能完成根據(jù)指令完成回答, 而不是隨機生成回答
提供的文本: {"instruction":"...", "output":"..."}
高效參數(shù)微調(diào)(Parameter Efficient Fine Turning)
只調(diào)整部分參數(shù), 具體實現(xiàn)方法有LoRA
參考:
大模型微調(diào)后的評估指標(biāo)是衡量模型性能的關(guān)鍵,通常根據(jù)任務(wù)類型和具體需求選擇不同的評估指標(biāo)。以下是一些常見的評估指標(biāo)及其適用場景:
1. 分類任務(wù)
- 準(zhǔn)確率(Accuracy):預(yù)測正確的樣本占總樣本的比例。
- 精確率(Precision):預(yù)測為正類的樣本中,實際為正類的比例。
- 適用場景:關(guān)注減少假陽性(False Positive)的任務(wù)。
- 召回率(Recall):實際為正類的樣本中,預(yù)測為正類的比例。
- 適用場景:關(guān)注減少假陰性(False Negative)的任務(wù)。
- F1分?jǐn)?shù)(F1 Score):精確率和召回率的調(diào)和平均值。
- 適用場景:類別不平衡或需要平衡精確率和召回率的任務(wù)。
- ROC-AUC:ROC曲線下的面積,衡量模型區(qū)分正負類的能力。
- 適用場景:二分類任務(wù),尤其是類別不平衡的情況。
2. 回歸任務(wù)
- 均方誤差(MSE, Mean Squared Error):預(yù)測值與真實值之差的平方的平均值。
- 適用場景:對誤差較大的樣本懲罰更重的任務(wù)。
- 均方根誤差(RMSE, Root Mean Squared Error):MSE的平方根。
- 適用場景:與MSE類似,但更接近原始數(shù)據(jù)尺度。
- 平均絕對誤差(MAE, Mean Absolute Error):預(yù)測值與真實值之差的絕對值的平均值。
- R²(決定系數(shù)):模型解釋目標(biāo)變量方差的比例。
3. 生成任務(wù)
- BLEU(Bilingual Evaluation Understudy):衡量生成文本與參考文本的n-gram重疊程度。
- ROUGE(Recall-Oriented Understudy for Gisting Evaluation):衡量生成文本與參考文本的重疊程度,側(cè)重于召回率。
- METEOR:綜合考慮精確率、召回率和詞序的評估指標(biāo)。
- Perplexity(困惑度):衡量模型預(yù)測概率分布的不確定性。
4. 多標(biāo)簽任務(wù)
- Hamming Loss:預(yù)測錯誤的標(biāo)簽比例。
- Jaccard Similarity:預(yù)測標(biāo)簽與真實標(biāo)簽的交集與并集之比。
5. 排序任務(wù)
- NDCG(Normalized Discounted Cumulative Gain):衡量排序結(jié)果的相關(guān)性。
- MAP(Mean Average Precision):平均精確率的均值。
6. 其他指標(biāo)
- 訓(xùn)練時間:模型微調(diào)所需的時間。
- 推理速度:模型生成結(jié)果的速度。
- 資源消耗:模型運行所需的計算資源(如GPU內(nèi)存、CPU使用率)。
- 魯棒性:模型對噪聲、異常值或?qū)箻颖镜牡挚鼓芰Α?/li>
7. 領(lǐng)域特定指標(biāo)
- 醫(yī)學(xué)領(lǐng)域:敏感性(Sensitivity)、特異性(Specificity)、AUC-ROC。
- 金融領(lǐng)域:收益曲線、夏普比率(Sharpe Ratio)。
- 計算機視覺:mAP(mean Average Precision)、IoU(Intersection over Union)。
8. 人類評估
- 人工評分:通過人工評估生成結(jié)果的質(zhì)量(如流暢性、相關(guān)性、準(zhǔn)確性)。
- 用戶滿意度:通過用戶反饋評估模型的實際效果。
9. 模型對比
- 基線對比:與未微調(diào)的模型或基線模型進行性能對比。
- 消融實驗:評估微調(diào)過程中不同組件(如數(shù)據(jù)、超參數(shù))對性能的影響。
10. 綜合評估
- 多指標(biāo)綜合:根據(jù)任務(wù)需求,結(jié)合多個指標(biāo)進行綜合評估。
- 任務(wù)特定指標(biāo):針對特定任務(wù)設(shè)計自定義指標(biāo)。
在實際應(yīng)用中,選擇合適的評估指標(biāo)需要結(jié)合任務(wù)目標(biāo)、數(shù)據(jù)特點和業(yè)務(wù)需求,同時注意避免單一指標(biāo)的局限性。