Posted on 2007-06-27 08:43
tanzek 閱讀(324)
評(píng)論(0) 編輯 收藏
什么是規(guī)則?就是一個(gè)條件和一個(gè)結(jié)果的和:If condition then result。實(shí)際中有用的往往是結(jié)果中只有一個(gè)元素的情況。
關(guān)聯(lián)規(guī)則(association rule)挖掘技術(shù)用于發(fā)現(xiàn)數(shù)據(jù)庫中屬性之間的有趣聯(lián)系。和傳統(tǒng)的產(chǎn)生式規(guī)則不同,關(guān)聯(lián)規(guī)則可以有一個(gè)或多個(gè)輸出,同時(shí)一個(gè)規(guī)則的輸出屬性可以是另一個(gè)規(guī)則的輸入屬性。關(guān)聯(lián)規(guī)則分析有時(shí)也叫購物籃分析,是因?yàn)樗梢哉覍こ鰸撛诘牧钊烁信d趣的所有的產(chǎn)品組合。由此,有限數(shù)目的屬性可能生成上百條規(guī)則。
關(guān)聯(lián)規(guī)則的置信度、支持度和興趣度:
元組
|
出現(xiàn)頻率
|
A
|
45%
|
B
|
42.5%
|
C
|
40%
|
A和B
|
25%
|
A和C
|
20%
|
B和C
|
15%
|
A和B和C
|
5%
|
支持度:就是一個(gè)元組在整個(gè)數(shù)據(jù)庫中出現(xiàn)的概率。如上面的例子中
S(A)=0.45。
置信度:它是針對(duì)規(guī)則而言的。對(duì)于一般的規(guī)則,它的
可信度=p(condition and result)/p(condition)。例如有如下規(guī)則:
If B and C then A。則它的置信度是:
p(B and C and A)/p(B and C)=5%/15%=0.33。
提高率(或者叫興趣度):對(duì)于上面的一個(gè)規(guī)則,我們可以發(fā)現(xiàn),當(dāng)我們從從數(shù)據(jù)庫中直接取A的時(shí)候,概率是45%;可在我們的規(guī)則中,取到A的概率卻只有33.3%。顯然,這種情況是我們不愿意見到的,我們應(yīng)該略去這樣的一些規(guī)則。所以我們引入了興趣度的概念,具體的公式如下:
興趣度=p(condition and result)/p(condition)*p(result)。當(dāng)興趣度大于1的時(shí)候,這條規(guī)則就是比較好的;當(dāng)興趣度小于1的時(shí)候,這條規(guī)則就是沒有很大意義的。興趣度越大,規(guī)則的實(shí)際意義就越好。
克服實(shí)際應(yīng)用中數(shù)據(jù)量暴大的問題。當(dāng)數(shù)據(jù)量增大時(shí),要考慮的元素組就增長的很快了。
關(guān)聯(lián)規(guī)則的優(yōu)缺點(diǎn):
優(yōu)點(diǎn):·它可以產(chǎn)生清晰有用的結(jié)果。
·它支持間接數(shù)據(jù)挖掘。
·可以處理變長的數(shù)據(jù)。
·它的計(jì)算的消耗量是可以預(yù)見的。
缺點(diǎn):
·當(dāng)問題變大時(shí),計(jì)算量增長得厲害。
·難以決定正確的數(shù)據(jù)。
·容易忽略稀有的數(shù)據(jù)。