亚洲性日韩精品一区二区三区,亚洲日本在线观看,亚洲毛片在线免费观看

前文提到過，除了開方檢驗（CHI）以外，信息增益（IG，Information Gain）也是很有效的特征選擇方法。但凡是特征選擇，總是在將特征的重要程度量化之后再進行選擇，而如何量化特征的重要性，就成了各種方法間最大的不同。開方檢驗中使用特征與類別間的關聯(lián)性來進行這個量化，關聯(lián)性越強，特征得分越高，該特征越應該被保留。

在信息增益中，重要性的衡量標準就是看特征能夠為分類系統(tǒng)帶來多少信息，帶來的信息越多，該特征越重要。

因此先回憶一下信息論中有關信息量（就是“熵”）的定義。說有這么一個變量X，它可能的取值有n多種，分別是x₁，x₂，……，x_n，每一種取到的概率分別是P₁，P₂，……，P_n，那么X的熵就定義為：

意思就是一個變量可能的變化越多（反而跟變量具體的取值沒有任何關系，只和值的種類多少以及發(fā)生概率有關），它攜帶的信息量就越大（因此我一直覺得我們的政策法規(guī)信息量非常大，因為它變化很多，基本朝令夕改，笑）。

對分類系統(tǒng)來說，類別C是變量，它可能的取值是C₁，C₂，……，C_n，而每一個類別出現(xiàn)的概率是P(C₁)，P(C₂)，……，P(C_n)，因此n就是類別的總數(shù)。此時分類系統(tǒng)的熵就可以表示為：

有同學說不好理解呀，這樣想就好了，文本分類系統(tǒng)的作用就是輸出一個表示文本屬于哪個類別的值，而這個值可能是C₁，C₂，……，C_n，因此這個值所攜帶的信息量就是上式中的這么多。

信息增益是針對一個一個的特征而言的，就是看一個特征t，系統(tǒng)有它和沒它的時候信息量各是多少，兩者的差值就是這個特征給系統(tǒng)帶來的信息量，即增益。系統(tǒng)含有特征t的時候信息量很好計算，就是剛才的式子，它表示的是包含所有特征時系統(tǒng)的信息量。

問題是當系統(tǒng)不包含t時，信息量如何計算？我們換個角度想問題，把系統(tǒng)要做的事情想象成這樣：說教室里有很多座位，學生們每次上課進來的時候可以隨便坐，因而變化是很大的（無數(shù)種可能的座次情況）；但是現(xiàn)在有一個座位，看黑板很清楚，聽老師講也很清楚，于是校長的小舅子的姐姐的女兒托關系（真輾轉啊），把這個座位定下來了，每次只能給她坐，別人不行，此時情況怎樣？對于座次的可能情況來說，我們很容易看出以下兩種情況是等價的：（1）教室里沒有這個座位；（2）教室里雖然有這個座位，但其他人不能坐（因為反正它也不能參與到變化中來，它是不變的）。

對應到我們的系統(tǒng)中，就是下面的等價：（1）系統(tǒng)不包含特征t；（2）系統(tǒng)雖然包含特征t，但是t已經(jīng)固定了，不能變化。

我們計算分類系統(tǒng)不包含特征t的時候，就使用情況（2）來代替，就是計算當一個特征t不能變化時，系統(tǒng)的信息量是多少。這個信息量其實也有專門的名稱，就叫做“條件熵”，條件嘛，自然就是指“t已經(jīng)固定“這個條件。

但是問題接踵而至，例如一個特征X，它可能的取值有n多種（x₁，x₂，……，x_n），當計算條件熵而需要把它固定的時候，要把它固定在哪一個值上呢？答案是每一種可能都要固定一下，計算n個值，然后取均值才是條件熵。而取均值也不是簡單的加一加然后除以n，而是要用每個值出現(xiàn)的概率來算平均（簡單理解，就是一個值出現(xiàn)的可能性比較大，固定在它上面時算出來的信息量占的比重就要多一些）。

因此有這樣兩個條件熵的表達式：

這是指特征X被固定為值x_i時的條件熵，

這是指特征X被固定時的條件熵，注意與上式在意義上的區(qū)別。從剛才計算均值的討論可以看出來，第二個式子與第一個式子的關系就是：

具體到我們文本分類系統(tǒng)中的特征t，t有幾個可能的值呢？注意t是指一個固定的特征，比如他就是指關鍵詞“經(jīng)濟”或者“體育”，當我們說特征“經(jīng)濟”可能的取值時，實際上只有兩個，“經(jīng)濟”要么出現(xiàn)，要么不出現(xiàn)。一般的，t的取值只有t（代表t出現(xiàn)）和（代表t不出現(xiàn)），注意系統(tǒng)包含t但t 不出現(xiàn)與系統(tǒng)根本不包含t可是兩回事。

因此固定t時系統(tǒng)的條件熵就有了，為了區(qū)別t出現(xiàn)時的符號與特征t本身的符號，我們用T代表特征，而用t代表T出現(xiàn)，那么：

與剛才的式子對照一下，含義很清楚對吧，P(t)就是T出現(xiàn)的概率，就是T不出現(xiàn)的概率。這個式子可以進一步展開，其中的

另一半就可以展開為：

因此特征T給系統(tǒng)帶來的信息增益就可以寫成系統(tǒng)原本的熵與固定特征T后的條件熵之差：

公式中的東西看上去很多，其實也都很好計算。比如P(C_i)，表示類別C_i出現(xiàn)的概率，其實只要用1除以類別總數(shù)就得到了（這是說你平等的看待每個類別而忽略它們的大小時這樣算，如果考慮了大小就要把大小的影響加進去）。再比如P(t)，就是特征T出現(xiàn)的概率，只要用出現(xiàn)過T的文檔數(shù)除以總文檔數(shù)就可以了，再比如P(C_i|t)表示出現(xiàn)T的時候，類別C_i出現(xiàn)的概率，只要用出現(xiàn)了T并且屬于類別C_i的文檔數(shù)除以出現(xiàn)了T的文檔數(shù)就可以了。

從以上討論中可以看出，信息增益也是考慮了特征出現(xiàn)和不出現(xiàn)兩種情況，與開方檢驗一樣，是比較全面的，因而效果不錯。但信息增益最大的問題還在于它只能考察特征對整個系統(tǒng)的貢獻，而不能具體到某個類別上，這就使得它只適合用來做所謂“全局”的特征選擇（指所有的類都使用相同的特征集合），而無法做“本地”的特征選擇（每個類別有自己的特征集合，因為有的詞，對這個類別很有區(qū)分度，對另一個類別則無足輕重）。

看看，導出的過程其實很簡單，沒有什么神秘的對不對。可有的學術論文里就喜歡把這種本來很直白的東西寫得很晦澀，仿佛只有讀者看不懂才是作者的真正成功。

咱們是新一代的學者，咱們沒有知識不怕被別人看出來，咱們有知識也不怕教給別人。所以咱都把事情說簡單點，說明白點，大家好，才是真的好。

發(fā)表于 2009-03-24 14:54 Jasper 閱讀(55942) 評論(65) 編輯收藏所屬分類: 文本分類技術

評論

# re: 文本分類入門（十一）特征選擇方法之信息增益

看了博主文本分類技術系列的文章，獲益良多，對博主能夠如次深入淺出的講解很是佩服。

游客評論于 2009-03-25 10:16 回復更多評論

# re: 文本分類入門（十一）特征選擇方法之信息增益

簡單易懂啊。太感謝了。

我的自省09年評論于 2009-03-25 13:07 回復更多評論

# re: 文本分類入門（十一）特征選擇方法之信息增益

把教室位置想成文本，把詞想成學生，出現(xiàn)與不出現(xiàn)、不存在等這些意義，一下子就很清晰了呢。。。嘻嘻，好高興。

我的自省09年評論于 2009-03-25 13:28 回復更多評論

# re: 文本分類入門（十一）特征選擇方法之信息增益

博主，關注者留名個，呵呵

kidreamer 評論于 2009-03-26 10:38 回復更多評論

# re: 文本分類入門（十一）特征選擇方法之信息增益

強烈感謝中！！！！

tonyfox 評論于 2009-04-10 09:27 回復更多評論

# re: 文本分類入門（十一）特征選擇方法之信息增益

樓主，文中說P(Ci)只要用1除以類別總數(shù)就得到了，對此有點疑義，我認為是類別Ci出現(xiàn)的文檔數(shù)除以文檔總數(shù)。

志大才疏評論于 2009-04-11 10:05 回復更多評論

# re: 文本分類入門（十一）特征選擇方法之信息增益

@志大才疏
注意我說過，當你忽略類別的大小時用1除以類別總數(shù)。您的做法是考慮了類別大小的方法。

Jasper 評論于 2009-04-11 10:37 回復更多評論

# re: 文本分類入門（十一）特征選擇方法之信息增益

@Jasper
明白了。還有一個問題麻煩您幫忙，您列出了不少關于文本分類的參考文獻，其中哪幾篇文獻，特征選擇講的比較詳細？

志大才疏評論于 2009-04-13 16:25 回復更多評論

# re: 文本分類入門（十一）特征選擇方法之信息增益

@志大才疏
遺憾的是基本沒有什么文獻會仔細的說，這可能是學術論文的通病吧，總希望讀者看不懂才好。

Jasper 評論于 2009-04-13 16:27 回復更多評論

# re: 文本分類入門（十一）特征選擇方法之信息增益

@Jasper
同感。看了不少學術論文，沒一個講明白的。弄的我在寫程序的時候犯了不少錯誤，例如計算信息增益的P(Ci|t)時，用出現(xiàn)了T并且屬于類別Ci的“詞條數(shù)”除以出現(xiàn)了T的“詞條數(shù)”，其實應該是“文檔數(shù)”，要不是看樓主的文章，現(xiàn)在還是這么想的，在這里，謝謝樓主了。

志大才疏評論于 2009-04-14 09:53 回復更多評論

# re: 文本分類入門（十一）特征選擇方法之信息增益

@志大才疏
我也在研究特征選擇，中文學術論文對這方面寫得感覺不大好，英文學術論文就很多比較詳細的，比如：
Y.Yang and J.Pedersen. A comparative study on feature selection in text categorization
Feature Selection for Text Categorization on Imbalanced Data

還有很多新的feature selection，我看到頭都暈了......有興趣可以發(fā)E-MAIL給我一起研究 lebee_leon@163.com

Lebee_leon 評論于 2009-04-18 23:46 回復更多評論

# re: 文本分類入門（十一）特征選擇方法之信息增益

，類別C是變量，它可能的取值是C1，C2，……，Cn

11 評論于 2009-04-24 21:58 回復更多評論

# re: 文本分類入門（十一）特征選擇方法之信息增益

真的，看那些晦澀的論文，我也沒怎么產(chǎn)生過佩服的心情，但是，博主真是太強了，這才是真正的學者呢。

妞妞評論于 2009-05-09 11:54 回復更多評論

# re: 文本分類入門（十一）特征選擇方法之信息增益[未登錄]

博主你好，看了你的文本特征選擇的文章，學到很多東西。我嘗試做了一些實驗。
在用開方檢驗的方法進行特征選擇，用LIBSVM進行分類，訓練數(shù)據(jù)和測試數(shù)據(jù)的accuracy是達到90%以上。但用信息增益的方法，得到模型時，訓練數(shù)據(jù)最好的結果都是90%上，但測試數(shù)據(jù)的結果卻是60%左右。我所用的數(shù)據(jù)是北大分類語料和SOGOU的語料。

博主，我想問問，會有這么大差距，還是我的IG算錯了？

BEE 評論于 2009-06-02 18:28 回復更多評論

# re: 文本分類入門（十一）特征選擇方法之信息增益[未登錄]

恩，是我程序有問題。抱歉。

BEE 評論于 2009-06-02 18:43 回復更多評論

# re: 文本分類入門（十一）特征選擇方法之信息增益

想問一下博主，H(C)才應該是不考慮特征t時候的系統(tǒng)的熵吧？

zhiyuan 評論于 2009-07-20 11:50 回復更多評論

# re: 文本分類入門（十一）特征選擇方法之信息增益[未登錄]

呵呵,您再好好想想.@zhiyuan

Jasper 評論于 2009-07-20 22:03 回復更多評論

# re: 文本分類入門（十一）特征選擇方法之信息增益

再一次膜拜~~svm入門系列的最后一章嗎？期待您對核函數(shù)更深入的講解

xiaoxin4 評論于 2009-08-03 16:20 回復更多評論

# re: 文本分類入門（十一）特征選擇方法之信息增益

博主在文中提到信息增益無法做本地的特征選擇，那么請教如果要做本地特征選擇（即針對每個類別挑選出最適合這個類別的特征）有什么好點的方法呢。

非常期待您的回復。謝謝！

妞妞評論于 2009-08-08 15:39 回復更多評論

# re: 文本分類入門（十一）特征選擇方法之信息增益

@妞妞
可以試試卡方檢驗（CHI Test）。

Jasper 評論于 2009-08-08 15:47 回復更多評論

# re: 文本分類入門（十一）特征選擇方法之信息增益

樓主真的是真知灼見令人佩服

知青評論于 2009-11-25 20:35 回復更多評論

# re: 文本分類入門（十一）特征選擇方法之信息增益

非常感謝博主這樣深入淺出的講解SVM，讓我真正了解了SVM，真的感謝博主這樣的熱心人。

Jackiee 評論于 2009-11-29 22:38 回復更多評論

# re: 文本分類入門（十一）特征選擇方法之信息增益

特征t如何體現(xiàn)在分類系統(tǒng)的熵中的？分類系統(tǒng)的熵不是由類別數(shù)和對應的概率決定么？和用什么特征表示有什么關系？有點沒想明白

Jackiee 評論于 2009-12-03 15:17 回復更多評論

# re: 文本分類入門（十一）特征選擇方法之信息增益

我想明白了，是不是說分類系統(tǒng)的信息熵是包括所有特征在內的，那么固定其中一個特征就成了條件熵了？貌似這樣的理解可以講得通。

Jackiee 評論于 2009-12-03 15:28 回復更多評論

# re: 文本分類入門（十一）特征選擇方法之信息增益

博主對于連續(xù)變量的選擇有啥好的建議呢？

Jackiee 評論于 2009-12-03 16:07 回復更多評論

# re: 文本分類入門（十一）特征選擇方法之信息增益

博主，會不會有可能IG<0的？

Jackiee 評論于 2009-12-16 15:43 回復更多評論

# re: 文本分類入門（十一）特征選擇方法之信息增益[未登錄]

作者的講解很容易理解，謝謝了

rain 評論于 2010-02-24 15:32 回復更多評論

# re: 文本分類入門（十一）特征選擇方法之信息增益[未登錄]

可有的學術論文里就喜歡把這種本來很直白的東西寫得很晦澀，仿佛只有讀者看不懂才是作者的真正成功。
對啊！！！
一氣看了博主的文本分類的文章，寫的好呀

jane 評論于 2010-04-09 16:11 回復更多評論

# re: 文本分類入門（十一）特征選擇方法之信息增益

看完之后，只有佩服和感謝！！

FZGY 評論于 2010-05-14 03:08 回復更多評論

# re: 文本分類入門（十一）特征選擇方法之信息增益

講得棒極了，謝謝博主，最后一句話受益匪淺！

李德勝評論于 2010-05-16 21:14 回復更多評論

# re: 文本分類入門（十一）特征選擇方法之信息增益

樓主太有才了，強烈支持！！

清風徐來評論于 2010-06-28 11:19 回復更多評論

# re: 文本分類入門（十一）特征選擇方法之信息增益[未登錄]

精彩的文章.....................

多類劃分方法的最后方案類似決策樹啊。

alex 評論于 2010-07-21 07:00 回復更多評論

# re: 文本分類入門（十一）特征選擇方法之信息增益

樓主寫的真好
膜拜

夏冬評論于 2010-09-02 23:42 回復更多評論

# re: 文本分類入門（十一）特征選擇方法之信息增益

博主說的簡直是太太太合我意了。最討厭明明很簡單的道理硬是講得又難又無聊。寫太好啦，收藏之~

IrisRR 評論于 2010-11-02 15:53 回復更多評論

# re: 文本分類入門（十一）特征選擇方法之信息增益

“咱們是新一代的學者，咱們沒有知識不怕被別人看出來，咱們有知識也不怕教給別人。所以咱都把事情說簡單點，說明白點，大家好，才是真的好。”

看到樓主的最后一句，感覺仿佛說出了自己的心聲。說的好！

Andyseren 評論于 2010-12-27 14:51 回復更多評論

# re: 文本分類入門（十一）特征選擇方法之信息增益

謝謝博主，講的簡單易懂謝謝

小桂子評論于 2011-05-11 11:04 回復更多評論

# re: 文本分類入門（十一）特征選擇方法之信息增益[未登錄]

在計算IG之前，是不是要對特征進行處理？
我算出IG較大的詞都是在文本集合中僅出現(xiàn)過一次的詞（即出現(xiàn)該特征的文檔數(shù)為1）

jsj 評論于 2011-05-11 16:32 回復更多評論

# re: 文本分類入門（十一）特征選擇方法之信息增益

太感謝了
贊！！

zj 評論于 2011-08-01 19:37 回復更多評論

# re: 文本分類入門（十一）特征選擇方法之信息增益

受益匪淺，感謝中。。。

張同學評論于 2011-11-10 10:56 回復更多評論

# re: 文本分類入門（十一）特征選擇方法之信息增益[未登錄]

謝謝博主，我聞香而來

Kevin 評論于 2012-04-08 21:58 回復更多評論

# re: 文本分類入門（十一）特征選擇方法之信息增益

言簡意賅，受教了！

研究人員評論于 2012-04-10 10:54 回復更多評論

# re: 文本分類入門（十一）特征選擇方法之信息增益

每個人對于知識都有輸入和輸出的技能，前者是理解知識，后者是表達知識。
有的學術論文作者可能是1號技能強2號技能弱，從而導致別人看不懂自己的文章，但并不一定是故意讓別人看不懂。。。
而博主就是兩個技能都很強，不僅理解深刻，而且表述得通俗易懂平易近人~充滿了逆襲的潛質^_^

nisemono 評論于 2012-05-22 12:26 回復更多評論

# re: 文本分類入門（十一）特征選擇方法之信息增益[未登錄]

博主太牛叉了

xiaoqiang 評論于 2012-06-13 20:45 回復更多評論

# re: 文本分類入門（十一）特征選擇方法之信息增益

簡單而清晰，博主厲害！

oceans 評論于 2012-07-27 17:41 回復更多評論

# re: 文本分類入門（十一）特征選擇方法之信息增益

@Jasper
“@妞妞
可以試試卡方檢驗（CHI Test）。”就是上一篇的“開方檢驗”么？

G 評論于 2013-03-27 22:12 回復更多評論

# 感謝！

為了感謝博主，特意注冊。所有的留言都看了，里面的話也正是自己想說的。接受感激也許沒有那么快樂，心存感激的人才是最開心的，因為博主，我心存感激！

馬爾科夫評論于 2013-05-07 17:30 回復更多評論

# re: 文本分類入門（十一）特征選擇方法之信息增益

真的很好啊。

hui 評論于 2013-05-10 15:17 回復更多評論

# re: 文本分類入門（十一）特征選擇方法之信息增益[未登錄]

真的講得很好，受益匪淺啊

cc 評論于 2013-07-17 22:21 回復更多評論

# re: 文本分類入門（十一）特征選擇方法之信息增益

說的太好了！希望博主多多更博啊！支持支持！

實習醫(yī)生楊評論于 2013-11-14 10:09 回復更多評論

# re: 文本分類入門（十一）特征選擇方法之信息增益

我們用T代表特征，而用t代表T出現(xiàn)，那么：
這句下面的那個公式發(fā)覺特別難理解

kevinew 評論于 2014-01-13 15:07 回復更多評論

# re: 文本分類入門（十一）特征選擇方法之信息增益

之前看這個公式，一下之就嚇住了，是直接不敢看啊，作者類似庖丁解牛方式，看的很透徹。

ches_liu 評論于 2014-04-18 19:59 回復更多評論

# re: 文本分類入門（十一）特征選擇方法之信息增益

"它只適合用來做所謂“全局”的特征選擇（指所有的類都使用相同的特征集合），而無法做“本地”的特征選擇（每個類別有自己的特征集合，因為有的詞，對這個類別很有區(qū)分度，對另一個類別則無足輕重）。"

怎么還有本地特征選擇？每個類都有自己的特征集合，還怎么classification？

karl 評論于 2014-06-04 14:10 回復更多評論

# re: 文本分類入門（十一）特征選擇方法之信息增益

xiexielouzhu

youke 評論于 2014-07-02 20:33 回復更多評論

# re: 文本分類入門（十一）特征選擇方法之信息增益

咱們是新一代的學者，咱們沒有知識不怕被別人看出來，咱們有知識也不怕教給別人。所以咱都把事情說簡單點，說明白點，大家好，才是真的好。
這句話說得太棒了！

and1 評論于 2014-07-07 19:58 回復更多評論

# re: 文本分類入門（十一）特征選擇方法之信息增益

你好厲害~

kate寶唄評論于 2014-08-11 18:04 回復更多評論

# re: 文本分類入門（十一）特征選擇方法之信息增益

實在是太棒了！感謝博主

calmnea 評論于 2014-11-25 11:25 回復更多評論

# re: 文本分類入門（十一）特征選擇方法之信息增益

從熵、條件熵和互信息的角度理解信息增益會更容易明白，信息增益就是互信息

金良山莊評論于 2014-12-05 17:06 回復更多評論

# re: 文本分類入門（十一）特征選擇方法之信息增益

大神，請教一個問題。
P(t)是指用用出現(xiàn)過T的是訓練集文檔除以訓練集的總文檔數(shù)目，還是用出現(xiàn)過T的測試集文檔除以測試集的總文檔數(shù)目？
同理，P(Ci|t)表示的是指用什么文檔除數(shù)目以什么文檔數(shù)目？
困惑了好久，忘耐心解答。謝謝~

軟件的學生評論于 2014-12-11 22:06 回復更多評論

# re: 文本分類入門（十一）特征選擇方法之信息增益

給樓主贊一個，樓主學術好，人也好，講解的也夠清楚，最后一句話說的更好

暖暖評論于 2015-03-20 22:13 回復更多評論

# re: 文本分類入門（十一）特征選擇方法之信息增益

真心佩服博主，講的好通俗，可見博主理解的深入~

scutych 評論于 2015-03-21 16:08 回復更多評論

# re: 文本分類入門（十一）特征選擇方法之信息增益

感覺利用信息增益選擇特征其實就是決策樹的第一步

karry 評論于 2015-05-24 09:34 回復更多評論

# re: 文本分類入門（十一）特征選擇方法之信息增益

感謝~

呵呵噠評論于 2015-10-21 10:14 回復更多評論

# re: 文本分類入門（十一）特征選擇方法之信息增益

佩服的五體投地啊世界上總有那么些人，無私，樂于分享。而且重要的是技術理論很牛，能把那些刻板的教科書中的乏味東西講得通俗易懂又生動有趣，跪求樓主多發(fā)一些關于這樣普及科學的文章，讓我這模式識別小白多學一些！！！！100000000個贊！！！！O(∩_∩)O。但是樓主，加了你的qq，但是一直沒反應。

somnus 評論于 2015-11-11 17:03 回復更多評論

# re: 文本分類入門（十一）特征選擇方法之信息增益[未登錄]

說的太好了您理解的太透徹了之前做化學現(xiàn)在用到這方面的知識讓我想起了嘿被鬧了費曼先生

可可評論于 2016-06-19 20:52 回復更多評論

# re: 文本分類入門（十一）特征選擇方法之信息增益[未登錄]

只適用于二元特征屬性的情況，也就說特征只能取值0或者1

wonderful 評論于 2016-08-11 20:54 回復更多評論

文本分類入門（十一）特征選擇方法之信息增益

公告

常用鏈接

留言簿(64)

隨筆分類

隨筆檔案

文章分類

搜索

最新評論

閱讀排行榜

評論排行榜

Jasper's Java Jacal 嘉士伯的Java小屋
BlogJava \| 首頁 \| 發(fā)新隨筆 \| 發(fā)新文章 \| 聯(lián)系 \| 聚合 \| 管理	隨筆：51 文章：2 評論：717 引用：0