Posted on 2007-10-11 22:44
semovy 閱讀(297)
評論(0) 編輯 收藏 所屬分類:
數據庫方面
什么是數據挖掘
數據挖掘(Data Mining),又稱為數據庫中的知識發(fā)現(xiàn)(Knowledge Discovery in Database, KDD),就是從大量數據中獲取有效的、新穎的、潛在有用的、最終可理解的模式的非平凡過程,簡單的說,數據挖掘就是從大量數據中提取或“挖掘”知識。
并非所有的信息發(fā)現(xiàn)任務都被視為數據挖掘。例如,使用數據庫管理系統(tǒng)查找個別的記錄,或通過因特網的搜索引擎查找特定的Web頁面,則是信息檢索(information retrieval)領域的任務。雖然這些任務是重要的,可能涉及使用復雜的算法和數據結構,但是它們主要依賴傳統(tǒng)的計算機科學技術和數據的明顯特征來創(chuàng)建索引結構,從而有效地組織和檢索信息。盡管如此,數據挖掘技術也已用來增強信息檢索系統(tǒng)的能力。
數據挖掘的起源
為迎接前一節(jié)中的這些挑戰(zhàn),來自不同學科的研究者匯集到一起,開始著手開發(fā)可以處理不同數據類型的更有效的、可伸縮的工具。這些工作建立在研究者先前使用的方法學和算法之上,在數據挖掘領域達到高潮。特別地,數據挖掘利用了來自如下一些領域的思想:(1) 來自統(tǒng)計學的抽樣、估計和假設檢驗,(2) 人工智能、模式識別和機器學習的搜索算法、建模技術和學習理論。數據挖掘也迅速地接納了來自其他領域的思想,這些領域包括最優(yōu)化、進化計算、信息論、信號處理、可視化和信息檢索。
一些其他領域也起到重要的支撐作用。特別地,需要數據庫系統(tǒng)提供有效的存儲、索引和查詢處理支持。源于高性能(并行)計算的技術在處理海量數據集方面常常是重要的。分布式技術也能幫助處理海量數據,并且當數據不能集中到一起處理時更是至關重要。
數據挖掘能做什么
1)數據挖掘能做以下六種不同事情(分析方法):
· 分類 (Classification)
· 估值(Estimation)
· 預言(Prediction)
· 相關性分組或關聯(lián)規(guī)則(Affinity grouping or association rules)
· 聚集(Clustering)
· 描述和可視化(Des cription and Visualization)
· 復雜數據類型挖掘(Text, Web ,圖形圖像,視頻,音頻等)
2)數據挖掘分類
以上六種數據挖掘的分析方法可以分為兩類:直接數據挖掘;間接數據挖掘
· 直接數據挖掘
目標是利用可用的數據建立一個模型,這個模型對剩余的數據,對一個特定的變量(可以理解成數據庫中表的屬性,即列)進行描述。
· 間接數據挖掘
目標中沒有選出某一具體的變量,用模型進行描述;而是在所有的變量中建立起某種關系 。
· 分類、估值、預言屬于直接數據挖掘;后三種屬于間接數據挖掘
3)各種分析方法的簡介
· 分類 (Classification)
首先從數據中選出已經分好類的訓練集,在該訓練集上運用數據挖掘分類的技術,建立分類模型,對于沒有分類的數據進行分類。
例子:
a. 信用卡申請者,分類為低、中、高風險
b. 分配客戶到預先定義的客戶分片
注意: 類的個數是確定的,預先定義好的
· 估值(Estimation)
估值與分類類似,不同之處在于,分類描述的是離散型變量的輸出,而估值處理連續(xù)值的輸出;分類的類別是確定數目的,估值的量是不確定的。
例子:
a. 根據購買模式,估計一個家庭的孩子個數
b. 根據購買模式,估計一個家庭的收入
c. 估計real estate的價值
一般來說,估值可以作為分類的前一步工作。給定一些輸入數據,通過估值,得到未知的連續(xù)變量的值,然后,根據預先設定的閾值,進行分類。例如:銀行對家庭貸款業(yè)務,運用估值,給各個客戶記分(Score 0~1)。然后,根據閾值,將貸款級別分類。
· 預言(Prediction)
通常,預言是通過分類或估值起作用的,也就是說,通過分類或估值得出模型,該模型用于對未知變量的預言。從這種意義上說,預言其實沒有必要分為一個單獨的類。預言其目的是對未來未知變量的預測,這種預測是需要時間來驗證的,即必須經過一定時間后,才知道預言準確性是多少。
· 相關性分組或關聯(lián)規(guī)則(Affinity grouping or association rules)
決定哪些事情將一起發(fā)生。
例子:
a. 超市中客戶在購買A的同時,經常會購買B,即A => B(關聯(lián)規(guī)則)
b. 客戶在購買A后,隔一段時間,會購買B (序列分析)
· 聚集(Clustering)
聚集是對記錄分組,把相似的記錄在一個聚集里。聚集和分類的區(qū)別是聚集不依賴于預先定義好的類,不需要訓練集。
例子:
a. 一些特定癥狀的聚集可能預示了一個特定的疾病
b. 租VCD類型不相似的客戶聚集,可能暗示成員屬于不同的亞文化群
聚集通常作為數據挖掘的第一步。例如,"哪一種類的促銷對客戶響應最好?",對于這一 類問題,首先對整個客戶做聚集,將客戶分組在各自的聚集里,然后對每個不同的聚集,回答問題,可能效果更好。
· 描述和可視化(Des cription and Visualization)
是對數據挖掘結果的表示方式。
數據挖掘的商業(yè)背景
數據挖掘首先是需要商業(yè)環(huán)境中收集了大量的數據,然后要求挖掘的知識是有價值的。有 價值對商業(yè)而言,不外乎三種情況:降低開銷;提高收入;增加股票價格。
數據挖掘技術實現(xiàn)
在技術上可以根據它的工作過程分為:數據的抽取、數據的存儲和管理、數據的展現(xiàn)等關鍵技術。
·數據的抽取
數據的抽取是數據進入倉庫的入口。由于數據倉庫是一個獨立的數據環(huán)境,它需要通過抽取過程將數據從聯(lián)機事務處理系統(tǒng)、外部數據源、脫機的數據存儲介質中導入數據倉庫。數據抽取在技術上主要涉及互連、復制、增量、轉換、調度和監(jiān)控等幾個方面的處理。在數據抽取方面,未來的技術發(fā)展將集中在系統(tǒng)功能集成化方面,以適應數據倉庫本身或數據源的變化,使系統(tǒng)更便于管理和維護。
·數據的存儲和管理
數據倉庫的組織管理方式決定了它有別于傳統(tǒng)數據庫的特性,也決定了其對外部數據的表現(xiàn)形式。數據倉庫管理所涉及的數據量比傳統(tǒng)事務處理大得多,且隨時間的推移而快速累積。在數據倉庫的數據存儲和管理中需要解決的是如何管理大量的數據、如何并行處理大量的數據、如何優(yōu)化查詢等。目前,許多數據庫廠家提供的技術解決方案是擴展關系型數據庫的功能,將普通關系數據庫改造成適合擔當數據倉庫的服務器。
·數據的展現(xiàn)
在數據展現(xiàn)方面主要的方式有:
查詢:實現(xiàn)預定義查詢、動態(tài)查詢、OLAP查詢與決策支持智能查詢;報表:產生關系數據表格、復雜表格、OLAP表格、報告以及各種綜合報表;可視化:用易于理解的點線圖、直方圖、餅圖、網狀圖、交互式可視化、動態(tài)模擬、計算機動畫技術表現(xiàn)復雜數據及其相互關系;統(tǒng)計:進行平均值、最大值、最小值、期望、方差、匯總、排序等各種統(tǒng)計分析;挖掘:利用數據挖掘等方法,從數據中得到關于數據關系和模式的知識。
數據挖掘與數據倉庫融合發(fā)展
數據挖掘和數據倉庫的協(xié)同工作,一方面,可以迎合和簡化數據挖掘過程中的重要步驟,提高數據挖掘的效率和能力,確保數據挖掘中數據來源的廣泛性和完整性。另一方面,數據挖掘技術已經成為數據倉庫應用中極為重要和相對獨立的方面和工具。
數據挖掘和數據倉庫是融合與互動發(fā)展的,其學術研究價值和應用研究前景將是令人振奮的。它是數據挖掘專家、數據倉庫技術人員和行業(yè)專家共同努力的成果,更是廣大渴望從數據庫“奴隸”到數據庫“主人”轉變的企業(yè)最終用戶的通途。