<rt id="bn8ez"></rt>
<label id="bn8ez"></label>

  • <span id="bn8ez"></span>

    <label id="bn8ez"><meter id="bn8ez"></meter></label>

    Skynet

    ---------- ---------- 我的新 blog : liukaiyi.cublog.cn ---------- ----------

      BlogJava :: 首頁(yè) :: 聯(lián)系 :: 聚合  :: 管理
      112 Posts :: 1 Stories :: 49 Comments :: 0 Trackbacks

    數(shù)據(jù)挖掘研究?jī)?nèi)容和本質(zhì)
      隨著DMKD研究逐步走向深入,數(shù)據(jù)挖掘和知識(shí)發(fā)現(xiàn)的研究已經(jīng)形成了三根強(qiáng)大的技術(shù)支柱:數(shù)據(jù)庫(kù)、人工智能和 數(shù)理統(tǒng)計(jì)。因此,KDD大會(huì)程序委員會(huì)曾經(jīng)由這三個(gè)學(xué)科的權(quán)威人物同時(shí)來(lái)任主席。目前DMKD的主要研究?jī)?nèi)容包括基礎(chǔ)理論、發(fā)現(xiàn)算法、數(shù)據(jù)倉(cāng)庫(kù)、可視化技 術(shù)、定性定量互換模型、知識(shí)表示方法、發(fā)現(xiàn)知識(shí)的維護(hù)和再利用、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)中的知識(shí)發(fā)現(xiàn)以及網(wǎng)上數(shù)據(jù)挖掘等。

    數(shù)據(jù)挖掘所發(fā)現(xiàn)的知識(shí)最常見的有以下四類:
    - 廣義知識(shí)(Generalization)
      廣義知識(shí)指類別特征的概括性描述知識(shí)。根據(jù)數(shù)據(jù)的微觀特性發(fā)現(xiàn)其表征的、帶有普遍性的、較高層次概念的、中觀和宏觀的知識(shí),反映同類事物共同性質(zhì),是對(duì)數(shù)據(jù)的概括、精煉和抽象。

    廣 義知識(shí)的發(fā)現(xiàn)方法和實(shí)現(xiàn)技術(shù)有很多,如數(shù)據(jù)立方體、面向?qū)傩缘臍w約等。數(shù)據(jù)立方體還有其他一些別名,如“多維數(shù)據(jù)庫(kù)”、“實(shí)現(xiàn)視圖”、“OLAP"等。該 方法的基本思想是實(shí)現(xiàn)某些常用的代價(jià)較高的聚集函數(shù)的計(jì)算,諸如計(jì)數(shù)、求和、平均、最大值等,并將這些實(shí)現(xiàn)視圖儲(chǔ)存在多維數(shù)據(jù)庫(kù)中。既然很多聚集函數(shù)需經(jīng) 常重復(fù)計(jì)算,那么在多維數(shù)據(jù)立方體中存放預(yù)先計(jì)算好的結(jié)果將能保證快速響應(yīng),并可靈活地提供不同角度和不同抽象層次上的數(shù)據(jù)視圖。另一種廣義知識(shí)發(fā)現(xiàn)方法 是加拿大SimonFraser大學(xué)提出的面向?qū)傩缘臍w約方法。這種方法以類SQL語(yǔ)言表示數(shù)據(jù)挖掘查詢,收集數(shù)據(jù)庫(kù)中的相關(guān)數(shù)據(jù)集,然后在相關(guān)數(shù)據(jù)集上 應(yīng)用一系列數(shù)據(jù)推廣技術(shù)進(jìn)行數(shù)據(jù)推廣,包括屬性刪除、概念樹提升、屬性閾值控制、計(jì)數(shù)及其他聚集函數(shù)傳播等。
       
    - 關(guān)聯(lián)知識(shí)(Association)
      它反映一個(gè)事件和其他事件之間依賴或關(guān)聯(lián)的知識(shí)。如果兩項(xiàng)或多項(xiàng)屬性之間存在關(guān)聯(lián),那么其中一項(xiàng)的屬性值就可 以依據(jù)其他屬性值進(jìn)行預(yù)測(cè)。最為著名的關(guān)聯(lián)規(guī)則發(fā)現(xiàn)方法是R.Agrawal提出的Apriori算法。關(guān)聯(lián)規(guī)則的發(fā)現(xiàn)可分為兩步。第一步是迭代識(shí)別所有 的頻繁項(xiàng)目集,要求頻繁項(xiàng)目集的支持率不低于用戶設(shè)定的最低值;第二步是從頻繁項(xiàng)目集中構(gòu)造可信度不低于用戶設(shè)定的最低值的規(guī)則。識(shí)別或發(fā)現(xiàn)所有頻繁項(xiàng)目 集是關(guān)聯(lián)規(guī)則發(fā)現(xiàn)算法的核心,也是計(jì)算量最大的部分。
       
    - 分類知識(shí)(Classification&Clustering)
      它反映同類事物共同性質(zhì)的特征型知識(shí)和不同事物之間的差異型特征知識(shí)。最為典型的分類方法是基于決策樹的分類 方法。它是從實(shí)例集中構(gòu)造決策樹,是一種有指導(dǎo)的學(xué)習(xí)方法。該方法先根據(jù)訓(xùn)練子集(又稱為窗口)形成決策樹。如果該樹不能對(duì)所有對(duì)象給出正確的分類,那么 選擇一些例外加入到窗口中,重復(fù)該過(guò)程一直到形成正確的決策集。最終結(jié)果是一棵樹,其葉結(jié)點(diǎn)是類名,中間結(jié)點(diǎn)是帶有分枝的屬性,該分枝對(duì)應(yīng)該屬性的某一可 能值。最為典型的決策樹學(xué)習(xí)系統(tǒng)是ID3,它采用自頂向下不回溯策略,能保證找到一個(gè)簡(jiǎn)單的樹。算法C4.5和C5.0都是ID3的擴(kuò)展,它們將分類領(lǐng)域 從類別屬性擴(kuò)展到數(shù)值型屬性。

    數(shù)據(jù)分類還有統(tǒng)計(jì)、粗糙集(RoughSet)等方法。線性回歸和線性辨別分析是典型的統(tǒng)計(jì)模型。為降低決策樹生成代價(jià),人們還提出了一種區(qū)間分類器。最近也有人研究使用神經(jīng)網(wǎng)絡(luò)方法在數(shù)據(jù)庫(kù)中進(jìn)行分類和規(guī)則提取。
       
    - 預(yù)測(cè)型知識(shí)(Prediction)
      它根據(jù)時(shí)間序列型數(shù)據(jù),由歷史的和當(dāng)前的數(shù)據(jù)去推測(cè)未來(lái)的數(shù)據(jù),也可以認(rèn)為是以時(shí)間為關(guān)鍵屬性的關(guān)聯(lián)知識(shí)。

    目 前,時(shí)間序列預(yù)測(cè)方法有經(jīng)典的統(tǒng)計(jì)方法、神經(jīng)網(wǎng)絡(luò)和機(jī)器學(xué)習(xí)等。1968年Box和Jenkins提出了一套比較完善的時(shí)間序列建模理論和分析方法,這些 經(jīng)典的數(shù)學(xué)方法通過(guò)建立隨機(jī)模型,如自回歸模型、自回歸滑動(dòng)平均模型、求和自回歸滑動(dòng)平均模型和季節(jié)調(diào)整模型等,進(jìn)行時(shí)間序列的預(yù)測(cè)。由于大量的時(shí)間序列 是非平穩(wěn)的,其特征參數(shù)和數(shù)據(jù)分布隨著時(shí)間的推移而發(fā)生變化。因此,僅僅通過(guò)對(duì)某段歷史數(shù)據(jù)的訓(xùn)練,建立單一的神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)模型,還無(wú)法完成準(zhǔn)確的預(yù)測(cè)任 務(wù)。為此,人們提出了基于統(tǒng)計(jì)學(xué)和基于精確性的再訓(xùn)練方法,當(dāng)發(fā)現(xiàn)現(xiàn)存預(yù)測(cè)模型不再適用于當(dāng)前數(shù)據(jù)時(shí),對(duì)模型重新訓(xùn)練,獲得新的權(quán)重參數(shù),建立新的模型。 也有許多系統(tǒng)借助并行算法的計(jì)算優(yōu)勢(shì)進(jìn)行時(shí)間序列預(yù)測(cè)。
       
    - 偏差型知識(shí)(Deviation)
      此外,還可以發(fā)現(xiàn)其他類型的知識(shí),如偏差型知識(shí)(Deviation),它是對(duì)差異和極端特例的描述,揭示事 物偏離常規(guī)的異常現(xiàn)象,如標(biāo)準(zhǔn)類外的特例,數(shù)據(jù)聚類外的離群值等。所有這些知識(shí)都可以在不同的概念層次上被發(fā)現(xiàn),并隨著概念層次的提升,從微觀到中觀、到 宏觀,以滿足不同用戶不同層次決策的需要。
       

    數(shù)據(jù)挖掘的功能
      數(shù)據(jù)挖掘通過(guò)預(yù)測(cè)未來(lái)趨勢(shì)及行為,做出前攝的、基于知識(shí)的決策。數(shù)據(jù)挖掘的目標(biāo)是從數(shù)據(jù)庫(kù)中發(fā)現(xiàn)隱含的、有意義的知識(shí),主要有以下五類功能。
       
    - 自動(dòng)預(yù)測(cè)趨勢(shì)和行為
      數(shù)據(jù)挖掘自動(dòng)在大型數(shù)據(jù)庫(kù)中尋找預(yù)測(cè)性信息,以往需要進(jìn)行大量手工分析的問題如今可以迅速直接由數(shù)據(jù)本身得出 結(jié)論。一個(gè)典型的例子是市場(chǎng)預(yù)測(cè)問題,數(shù)據(jù)挖掘使用過(guò)去有關(guān)促銷的數(shù)據(jù)來(lái)尋找未來(lái)投資中回報(bào)最大的用戶,其它可預(yù)測(cè)的問題包括預(yù)報(bào)破產(chǎn)以及認(rèn)定對(duì)指定事件 最可能作出反應(yīng)的群體。
       
    - 關(guān)聯(lián)分析
      數(shù)據(jù)關(guān)聯(lián)是數(shù)據(jù)庫(kù)中存在的一類重要的可被發(fā)現(xiàn)的知識(shí)。若兩個(gè)或多個(gè)變量的取值之間存在某種規(guī)律性,就稱為關(guān) 聯(lián)。關(guān)聯(lián)可分為簡(jiǎn)單關(guān)聯(lián)、時(shí)序關(guān)聯(lián)、因果關(guān)聯(lián)。關(guān)聯(lián)分析的目的是找出數(shù)據(jù)庫(kù)中隱藏的關(guān)聯(lián)網(wǎng)。有時(shí)并不知道數(shù)據(jù)庫(kù)中數(shù)據(jù)的關(guān)聯(lián)函數(shù),即使知道也是不確定的, 因此關(guān)聯(lián)分析生成的規(guī)則帶有可信度。
       
    - 聚類
      數(shù)據(jù)庫(kù)中的記錄可被化分為一系列有意義的子集,即聚類。聚類增強(qiáng)了人們對(duì)客觀現(xiàn)實(shí)的認(rèn)識(shí),是概念描述和偏差分 析的先決條件。聚類技術(shù)主要包括傳統(tǒng)的模式識(shí)別方法和數(shù)學(xué)分類學(xué)。80年代初,Mchalski提出了概念聚類技術(shù)牞其要點(diǎn)是,在劃分對(duì)象時(shí)不僅考慮對(duì)象 之間的距離,還要求劃分出的類具有某種內(nèi)涵描述,從而避免了傳統(tǒng)技術(shù)的某些片面性。
       
    - 概念描述
      概念描述就是對(duì)某類對(duì)象的內(nèi)涵進(jìn)行描述,并概括這類對(duì)象的有關(guān)特征。概念描述分為特征性描述和區(qū)別性描述,前 者描述某類對(duì)象的共同特征,后者描述不同類對(duì)象之間的區(qū)別。生成一個(gè)類的特征性描述只涉及該類對(duì)象中所有對(duì)象的共性。生成區(qū)別性描述的方法很多,如決策樹 方法、遺傳算法等。
       
    - 偏差檢測(cè)
      數(shù)據(jù)庫(kù)中的數(shù)據(jù)常有一些異常記錄,從數(shù)據(jù)庫(kù)中檢測(cè)這些偏差很有意義。偏差包括很多潛在的知識(shí),如分類中的反常實(shí)例、不滿足規(guī)則的特例、觀測(cè)結(jié)果與模型預(yù)測(cè)值的偏差、量值隨時(shí)間的變化等。偏差檢測(cè)的基本方法是,尋找觀測(cè)結(jié)果與參照值之間有意義的差別。
       

    數(shù)據(jù)挖掘常用技術(shù)
    - 人工神經(jīng)網(wǎng)絡(luò)
      仿照生理神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的非線形預(yù)測(cè)模型,通過(guò)學(xué)習(xí)進(jìn)行模式識(shí)別。
       
    - 決策樹
      代表著決策集的樹形結(jié)構(gòu)。
       
    - 遺傳算法
      基于進(jìn)化理論,并采用遺傳結(jié)合、遺傳變異、以及自然選擇等設(shè)計(jì)方法的優(yōu)化技術(shù)。
       
    - 近鄰算法
      將數(shù)據(jù)集合中每一個(gè)記錄進(jìn)行分類的方法。
       
    - 規(guī)則推導(dǎo)
      從統(tǒng)計(jì)意義上對(duì)數(shù)據(jù)中的“如果-那么”規(guī)則進(jìn)行尋找和推導(dǎo)。

    采用上述技術(shù)的某些專門的分析工具已經(jīng)發(fā)展了大約十年的歷史,不過(guò)這些工具所面對(duì)的數(shù)據(jù)量通常較小。而現(xiàn)在這些技術(shù)已經(jīng)被直接集成到許多大型的工業(yè)標(biāo)準(zhǔn)的數(shù)據(jù)倉(cāng)庫(kù)和聯(lián)機(jī)分析系統(tǒng)中去了。
      摘自《數(shù)據(jù)挖掘討論組》


    整理 m.tkk7.com/Good-Game
    posted on 2009-10-22 18:05 劉凱毅 閱讀(2024) 評(píng)論(1)  編輯  收藏 所屬分類: 數(shù)據(jù)挖掘

    Feedback

    # re: 數(shù)據(jù)挖掘研究?jī)?nèi)容和本質(zhì)(轉(zhuǎn)) 2009-10-26 17:44 ITdavid
    非常感謝!  回復(fù)  更多評(píng)論
      

    主站蜘蛛池模板: 一个人看的www视频免费在线观看 一个人看的免费观看日本视频www | 亚洲日本一区二区一本一道 | 日韩一区二区三区免费播放| 国产aⅴ无码专区亚洲av麻豆 | av成人免费电影| 18亚洲男同志videos网站| 午夜一区二区免费视频| 四虎影视无码永久免费| 中日韩亚洲人成无码网站| 色噜噜亚洲精品中文字幕| 免费无码A片一区二三区| 精品一区二区三区免费视频| 亚洲制服丝袜一区二区三区| 国产福利电影一区二区三区,亚洲国模精品一区 | 亚洲男人天堂2020| 69堂人成无码免费视频果冻传媒| 久久久久亚洲AV无码去区首| 亚洲AV日韩AV永久无码绿巨人 | 亚洲午夜国产精品无码老牛影视| 无码视频免费一区二三区| 中文字幕无线码免费人妻| 亚洲成av人在线观看网站| 亚洲天堂一区二区| 亚洲精品无码久久久久AV麻豆| 国产精品1024永久免费视频| xvideos永久免费入口| 亚洲粉嫩美白在线| 亚洲视频免费在线观看| 中文字幕精品亚洲无线码一区| 在线免费视频一区| 1000部拍拍拍18勿入免费视频软件 | 国产成人亚洲精品狼色在线| 好男人视频在线观看免费看片| 无码国产精品一区二区免费模式| 四虎影视久久久免费| 亚洲爆乳成av人在线视菜奈实| 亚洲成人免费在线观看| 亚洲国产精品一区二区久久hs| 亚洲国产综合人成综合网站| 国产自产拍精品视频免费看| 毛片免费在线观看网站|