Posted on 2008-03-25 15:46
qiyadeng 閱讀(1115)
評(píng)論(0) 編輯 收藏
數(shù)據(jù)挖掘中的任務(wù)大致包括以下幾個(gè)方面:
1、分類(lèi):通過(guò)一個(gè)帶有類(lèi)標(biāo)記的訓(xùn)練數(shù)據(jù)集,建立一個(gè)分類(lèi)模型,通過(guò)對(duì)一系列屬性的考察,可以對(duì)對(duì)象的類(lèi)型進(jìn)行預(yù)測(cè),這是有監(jiān)督的學(xué)習(xí);
2、估計(jì),例如:分析消費(fèi)模型,估計(jì)個(gè)人收入和孩子數(shù)目;
3、預(yù)言,例如:根據(jù)個(gè)人教育、當(dāng)前工作、行業(yè)趨勢(shì)、預(yù)言2009年的工資;
4、密切性發(fā)掘,例如:關(guān)聯(lián)規(guī)則發(fā)掘和相關(guān)性分析
5、聚集:主要針對(duì)沒(méi)有類(lèi)標(biāo)記的數(shù)據(jù),建立一個(gè)歸類(lèi)模型,讓同一類(lèi)的對(duì)象有盡量大的相似性,不同類(lèi)的對(duì)象有盡量大的差異,這是無(wú)監(jiān)督的學(xué)習(xí);
6、偏差分析;
7、異常檢測(cè):發(fā)現(xiàn)不同于正常模式的數(shù)據(jù),多用于風(fēng)險(xiǎn)規(guī)避、入侵檢測(cè)。
(關(guān)于監(jiān)督學(xué)習(xí)和非監(jiān)督學(xué)習(xí),請(qǐng)查看Machine Learning, Part I: Supervised and Unsupervised Learning或是譯文)
數(shù)據(jù)挖掘中的步驟為:
1、數(shù)據(jù)規(guī)范化(消除錯(cuò)誤和不一致的數(shù)據(jù))和集成(從不同數(shù)據(jù)源提取數(shù)據(jù));
2、數(shù)據(jù)選擇和變換(提取任務(wù)相關(guān)數(shù)據(jù),根據(jù)需要轉(zhuǎn)換成統(tǒng)一的、適合挖掘的形式);
3、數(shù)據(jù)挖掘(使用合適的算法,在有效的時(shí)間內(nèi)完成);
4、模式評(píng)估(根據(jù)某種興趣度量,識(shí)別表示知識(shí)的真正有趣的模式);
5、數(shù)據(jù)挖掘結(jié)論的表示(使用可視化和知識(shí)表示技術(shù),向用戶提供挖掘的知識(shí))。