亚洲国产精品无码专区在线观看,亚洲天天在线日亚洲洲精,亚洲福利电影一区二区?

強化學(xué)習(xí)資源

蘑菇書EasyRL
李宏毅老師的《深度強化學(xué)習(xí)》是強化學(xué)習(xí)領(lǐng)域經(jīng)典的中文視頻之一。李老師幽默風(fēng)趣的上課風(fēng)格讓晦澀難懂的強化學(xué)習(xí)理論變得輕松易懂，他會通過很多有趣的例子來講解強化學(xué)習(xí)理論。比如老師經(jīng)常會用玩 Atari 游戲的例子來講解強化學(xué)習(xí)算法。此外，為了教程的完整性，我們整理了周博磊老師的《強化學(xué)習(xí)綱要》、李科澆老師的《世界冠軍帶你從零實踐強化學(xué)習(xí)》以及多個強化學(xué)習(xí)的經(jīng)典資料作為補充。對于想入門強化學(xué)習(xí)又想看中文講解的人來說絕對是非常推薦的。

本教程也稱為“蘑菇書”，寓意是希望此書能夠為讀者注入活力，讓讀者“吃”下這本蘑菇之后，能夠饒有興致地探索強化學(xué)習(xí)，像馬里奧那樣愈加強大，繼而在人工智能領(lǐng)域覓得意外的收獲。

https://github.com/datawhalechina/easy-rl?tab=readme-ov-file

posted @ 2025-04-30 14:15 paulwong 閱讀(15) | 評論 (0) | 編輯收藏

足球數(shù)據(jù)資源

足球基礎(chǔ)數(shù)據(jù)

https://www.nami.com/details/4nw10i0tela68lq#interface

足球統(tǒng)計數(shù)據(jù)

https://www.nami.com/details/7xwk3iqtv3s9rk6#interface

足球統(tǒng)計數(shù)據(jù)

https://www.nami.com/details/7xwk3iqtv3s9rk6#interface

足球高階數(shù)據(jù)

https://www.nami.com/details/g5wvvikteeixwzd#interface

指數(shù)數(shù)據(jù)

https://www.nami.com/details/o6w9kipt4yi78k3#interface

足球資料庫數(shù)據(jù)

https://www.nami.com/details/7j8gxi0to7inrql#interface

Marz火星數(shù)據(jù)（體育）

https://www.kancloud.cn/marz/marz-sport/3098904

posted @ 2025-04-24 14:56 paulwong 閱讀(48) | 評論 (0) | 編輯收藏

ai預(yù)測足球資源

基于機器學(xué)習(xí)的2022世界杯預(yù)測實戰(zhàn)

https://www.showmeai.tech/article-detail/400

AI 競彩賽事預(yù)測工具

https://www.mysports.ai/cn

posted @ 2025-04-19 01:07 paulwong 閱讀(19) | 評論 (0) | 編輯收藏

微調(diào)訓(xùn)練的數(shù)據(jù)集

使用trl庫做微調(diào)時, 對數(shù)據(jù)集的要求是:

如果是多輪對話場景:

jsonl 文件，且需符合以下要求:

1.每行是一個獨立的 JSON 對象;

2 每個對象須包含一個鍵名為 messages 的數(shù)組，數(shù)組不能為空;

3.messages 中每個元素必須包含 role 和 content 兩個字段:

4.role 只能是 system,user 或 assisiant;

5.如果有 system 角色消息, 需在數(shù)組首位;

6.第一條非 system 消息必須是 user 角色;

7.user 和 assisiant 角色的消息應(yīng)當(dāng)交替、成對出現(xiàn)，不少于1對;

如果是指令微調(diào)場景:

jsonl 文件，且需符合以下要求:

1.每行是一個獨立的 JSON 對象;

2 每個對象須包含且只能包含一個鍵名為 text 的鍵值對，值不能為空;

posted @ 2025-03-21 21:52 paulwong 閱讀(63) | 評論 (0) | 編輯收藏

大模型訓(xùn)練的幾個階段

大模型開發(fā)出來后, 一般要經(jīng)過以下幾個階段的訓(xùn)練:

預(yù)訓(xùn)練(Pre-Trained)

單純提供文本: {"text":"..."}

訓(xùn)練模型由第一個文字開始, 預(yù)測后面的文字, 直到結(jié)束.

這種模型只會做完成文本的任務(wù)

監(jiān)督微調(diào)(Supervised Fine Turning)

為了使模型能完成根據(jù)指令完成回答, 而不是隨機生成回答

提供的文本: {"instruction":"...", "output":"..."}

高效參數(shù)微調(diào)(Parameter Efficient Fine Turning)

只調(diào)整部分參數(shù), 具體實現(xiàn)方法有LoRA

參考:

https://github.com/huggingface/smol-course/blob/main/1_instruction_tuning/notebooks/sft_finetuning_example.ipynb

posted @ 2025-03-18 13:14 paulwong 閱讀(64) | 評論 (0) | 編輯收藏

python資源

python

https://www.w3schools.com/python/

https://www.runoob.com/python/python-basic-syntax.html

posted @ 2025-03-16 20:54 paulwong 閱讀(33) | 評論 (0) | 編輯收藏

大模型微調(diào)后的評估指標(biāo)

大模型微調(diào)后的評估指標(biāo)是衡量模型性能的關(guān)鍵，通常根據(jù)任務(wù)類型和具體需求選擇不同的評估指標(biāo)。以下是一些常見的評估指標(biāo)及其適用場景：

1. 分類任務(wù)

準(zhǔn)確率（Accuracy）：預(yù)測正確的樣本占總樣本的比例。
- 適用場景：類別分布均衡的任務(wù)。
精確率（Precision）：預(yù)測為正類的樣本中，實際為正類的比例。
- 適用場景：關(guān)注減少假陽性（False Positive）的任務(wù)。
召回率（Recall）：實際為正類的樣本中，預(yù)測為正類的比例。
- 適用場景：關(guān)注減少假陰性（False Negative）的任務(wù)。
F1分?jǐn)?shù)（F1 Score）：精確率和召回率的調(diào)和平均值。
- 適用場景：類別不平衡或需要平衡精確率和召回率的任務(wù)。
ROC-AUC：ROC曲線下的面積，衡量模型區(qū)分正負類的能力。
- 適用場景：二分類任務(wù)，尤其是類別不平衡的情況。

2. 回歸任務(wù)

均方誤差（MSE, Mean Squared Error）：預(yù)測值與真實值之差的平方的平均值。
- 適用場景：對誤差較大的樣本懲罰更重的任務(wù)。
均方根誤差（RMSE, Root Mean Squared Error）：MSE的平方根。
- 適用場景：與MSE類似，但更接近原始數(shù)據(jù)尺度。
平均絕對誤差（MAE, Mean Absolute Error）：預(yù)測值與真實值之差的絕對值的平均值。
- 適用場景：對異常值不敏感的任務(wù)。
R²（決定系數(shù)）：模型解釋目標(biāo)變量方差的比例。
- 適用場景：評估模型擬合優(yōu)度。

3. 生成任務(wù)

BLEU（Bilingual Evaluation Understudy）：衡量生成文本與參考文本的n-gram重疊程度。
- 適用場景：機器翻譯、文本生成任務(wù)。
ROUGE（Recall-Oriented Understudy for Gisting Evaluation）：衡量生成文本與參考文本的重疊程度，側(cè)重于召回率。
- 適用場景：文本摘要、生成任務(wù)。
METEOR：綜合考慮精確率、召回率和詞序的評估指標(biāo)。
- 適用場景：機器翻譯、文本生成任務(wù)。
Perplexity（困惑度）：衡量模型預(yù)測概率分布的不確定性。
- 適用場景：語言模型評估。

4. 多標(biāo)簽任務(wù)

Hamming Loss：預(yù)測錯誤的標(biāo)簽比例。
- 適用場景：多標(biāo)簽分類任務(wù)。
Jaccard Similarity：預(yù)測標(biāo)簽與真實標(biāo)簽的交集與并集之比。
- 適用場景：多標(biāo)簽分類任務(wù)。

5. 排序任務(wù)

NDCG（Normalized Discounted Cumulative Gain）：衡量排序結(jié)果的相關(guān)性。
- 適用場景：推薦系統(tǒng)、信息檢索。
MAP（Mean Average Precision）：平均精確率的均值。
- 適用場景：信息檢索、推薦系統(tǒng)。

6. 其他指標(biāo)

訓(xùn)練時間：模型微調(diào)所需的時間。
推理速度：模型生成結(jié)果的速度。
資源消耗：模型運行所需的計算資源（如GPU內(nèi)存、CPU使用率）。
魯棒性：模型對噪聲、異常值或?qū)箻颖镜牡挚鼓芰Α?/li>

7. 領(lǐng)域特定指標(biāo)

醫(yī)學(xué)領(lǐng)域：敏感性（Sensitivity）、特異性（Specificity）、AUC-ROC。
金融領(lǐng)域：收益曲線、夏普比率（Sharpe Ratio）。
計算機視覺：mAP（mean Average Precision）、IoU（Intersection over Union）。

8. 人類評估

人工評分：通過人工評估生成結(jié)果的質(zhì)量（如流暢性、相關(guān)性、準(zhǔn)確性）。
用戶滿意度：通過用戶反饋評估模型的實際效果。

9. 模型對比

基線對比：與未微調(diào)的模型或基線模型進行性能對比。
消融實驗：評估微調(diào)過程中不同組件（如數(shù)據(jù)、超參數(shù)）對性能的影響。

10. 綜合評估

多指標(biāo)綜合：根據(jù)任務(wù)需求，結(jié)合多個指標(biāo)進行綜合評估。
任務(wù)特定指標(biāo)：針對特定任務(wù)設(shè)計自定義指標(biāo)。

在實際應(yīng)用中，選擇合適的評估指標(biāo)需要結(jié)合任務(wù)目標(biāo)、數(shù)據(jù)特點和業(yè)務(wù)需求，同時注意避免單一指標(biāo)的局限性。

posted @ 2025-03-12 10:08 paulwong 閱讀(198) | 評論 (0) | 編輯收藏

LLM全棧框架完整分類清單（預(yù)訓(xùn)練+微調(diào)+工具鏈）

https://blog.csdn.net/ViniJack/article/details/145789900

posted @ 2025-03-10 11:29 paulwong 閱讀(48) | 評論 (0) | 編輯收藏

My Links

Blog Stats

常用鏈接

留言簿(66)

隨筆分類(1386)

隨筆檔案(1144)

文章分類(7)

文章檔案(10)

相冊

收藏夾(2)

AI

Develop

E-BOOK

Other

養(yǎng)生

微服務(wù)

搜索

最新評論

閱讀排行榜

評論排行榜

60天內(nèi)閱讀排行