亚洲AV无码专区亚洲AV桃,亚洲精品国产精品乱码不卞 ,亚洲天堂久久精品

（一）SVM的八股簡介

支持向量機(Support Vector Machine)是Cortes和Vapnik于1995年首先提出的，它在解決小樣本、非線性及高維模式識別中表現出許多特有的優勢，并能夠推廣應用到函數擬合等其他機器學習問題中[10]。
支持向量機方法是建立在統計學習理論的VC 維理論和結構風險最小原理基礎上的，根據有限的樣本信息在模型的復雜性（即對特定訓練樣本的學習精度，Accuracy）和學習能力（即無錯誤地識別任意樣本的能力）之間尋求最佳折衷，以期獲得最好的推廣能力[14]（或稱泛化能力）。

以上是經常被有關SVM 的學術文獻引用的介紹，有點八股，我來逐一分解并解釋一下。

Vapnik是統計機器學習的大牛，這想必都不用說，他出版的《Statistical Learning Theory》是一本完整闡述統計機器學習思想的名著。在該書中詳細的論證了統計機器學習之所以區別于傳統機器學習的本質，就在于統計機器學習能夠精確的給出學習效果，能夠解答需要的樣本數等等一系列問題。與統計機器學習的精密思維相比，傳統的機器學習基本上屬于摸著石頭過河，用傳統的機器學習方法構造分類系統完全成了一種技巧，一個人做的結果可能很好，另一個人差不多的方法做出來卻很差，缺乏指導和原則。

所謂VC維是對函數類的一種度量，可以簡單的理解為問題的復雜程度，VC維越高，一個問題就越復雜。正是因為SVM關注的是VC維，后面我們可以看到，SVM解決問題的時候，和樣本的維數是無關的（甚至樣本是上萬維的都可以，這使得SVM很適合用來解決文本分類的問題，當然，有這樣的能力也因為引入了核函數）。

結構風險最小聽上去文縐縐，其實說的也無非是下面這回事。

機器學習本質上就是一種對問題真實模型的逼近（我們選擇一個我們認為比較好的近似模型，這個近似模型就叫做一個假設），但毫無疑問，真實模型一定是不知道的（如果知道了，我們干嗎還要機器學習？直接用真實模型解決問題不就可以了？對吧，哈哈）既然真實模型不知道，那么我們選擇的假設與問題真實解之間究竟有多大差距，我們就沒法得知。比如說我們認為宇宙誕生于150億年前的一場大爆炸，這個假設能夠描述很多我們觀察到的現象，但它與真實的宇宙模型之間還相差多少？誰也說不清，因為我們壓根就不知道真實的宇宙模型到底是什么。

這個與問題真實解之間的誤差，就叫做風險（更嚴格的說，誤差的累積叫做風險）。我們選擇了一個假設之后（更直觀點說，我們得到了一個分類器以后），真實誤差無從得知，但我們可以用某些可以掌握的量來逼近它。最直觀的想法就是使用分類器在樣本數據上的分類的結果與真實結果（因為樣本是已經標注過的數據，是準確的數據）之間的差值來表示。這個差值叫做經驗風險R_emp(w)。以前的機器學習方法都把經驗風險最小化作為努力的目標，但后來發現很多分類函數能夠在樣本集上輕易達到100%的正確率，在真實分類時卻一塌糊涂（即所謂的推廣能力差，或泛化能力差）。此時的情況便是選擇了一個足夠復雜的分類函數（它的VC維很高），能夠精確的記住每一個樣本，但對樣本之外的數據一律分類錯誤。回頭看看經驗風險最小化原則我們就會發現，此原則適用的大前提是經驗風險要確實能夠逼近真實風險才行（行話叫一致），但實際上能逼近么？答案是不能，因為樣本數相對于現實世界要分類的文本數來說簡直九牛一毛，經驗風險最小化原則只在這占很小比例的樣本上做到沒有誤差，當然不能保證在更大比例的真實文本上也沒有誤差。

統計學習因此而引入了泛化誤差界的概念，就是指真實風險應該由兩部分內容刻畫，一是經驗風險，代表了分類器在給定樣本上的誤差；二是置信風險，代表了我們在多大程度上可以信任分類器在未知文本上分類的結果。很顯然，第二部分是沒有辦法精確計算的，因此只能給出一個估計的區間，也使得整個誤差只能計算上界，而無法計算準確的值（所以叫做泛化誤差界，而不叫泛化誤差）。

置信風險與兩個量有關，一是樣本數量，顯然給定的樣本數量越大，我們的學習結果越有可能正確，此時置信風險越小；二是分類函數的VC維，顯然VC維越大，推廣能力越差，置信風險會變大。

泛化誤差界的公式為：

R(w)≤R_emp(w)+Ф(n/h)

公式中R(w)就是真實風險，R_emp(w)就是經驗風險，Ф(n/h)就是置信風險。統計學習的目標從經驗風險最小化變為了尋求經驗風險與置信風險的和最小，即結構風險最小。

SVM正是這樣一種努力最小化結構風險的算法。

SVM其他的特點就比較容易理解了。

小樣本，并不是說樣本的絕對數量少（實際上，對任何算法來說，更多的樣本幾乎總是能帶來更好的效果），而是說與問題的復雜度比起來，SVM算法要求的樣本數是相對比較少的。

非線性，是指SVM擅長應付樣本數據線性不可分的情況，主要通過松弛變量（也有人叫懲罰變量）和核函數技術來實現，這一部分是SVM的精髓，以后會詳細討論。多說一句，關于文本分類這個問題究竟是不是線性可分的，尚沒有定論，因此不能簡單的認為它是線性可分的而作簡化處理，在水落石出之前，只好先當它是線性不可分的（反正線性可分也不過是線性不可分的一種特例而已，我們向來不怕方法過于通用）。

高維模式識別是指樣本維數很高，例如文本的向量表示，如果沒有經過另一系列文章（《文本分類入門》）中提到過的降維處理，出現幾萬維的情況很正常，其他算法基本就沒有能力應付了，SVM卻可以，主要是因為SVM 產生的分類器很簡潔，用到的樣本信息很少（僅僅用到那些稱之為“支持向量”的樣本，此為后話），使得即使樣本維數很高，也不會給存儲和計算帶來大麻煩（相對照而言，kNN算法在分類時就要用到所有樣本，樣本數巨大，每個樣本維數再一高，這日子就沒法過了……）。

下一節開始正式討論SVM。別嫌我說得太詳細哦。

posted @ 2008-06-20 14:44 Jasper 閱讀(17586) | 評論 (16) | 編輯收藏

怠慢了幾天

這些天忙別的事了，比如開題報告,比如領小姑娘上醫院(汗),搞得連Google的活動都沒有參加,清華的研討會也錯過了.
不過最近集中研究了下SVM和增量算法,有機會和大家一起探討.

posted @ 2008-06-15 23:56 Jasper 閱讀(902) | 評論 (2) | 編輯收藏

文本分類入門(八)中英文文本分類的異同

從文本分類系統的處理流程來看，無論待分類的文本是中文還是英文，在訓練階段之前都要經過一個預處理的步驟，去除無用的信息，減少后續步驟的復雜度和計算負擔。

對中文文本來說，首先要經歷一個分詞的過程，就是把連續的文字流切分成一個一個單獨的詞匯（因為詞匯將作為訓練階段“特征”的最基本單位），例如原文是“中華人民共和國今天成立了”的文本就要被切分成“中華／人民／共和國／今天／成立／了”這樣的形式。而對英文來說，沒有這個步驟（更嚴格的說，并不是沒有這個步驟，而是英文只需要通過空格和標點便很容易將一個一個獨立的詞從原文中區分出來）。中文分詞的效果對文本分類系統的表現影響很大，因為在后面的流程中，全都使用預處理之后的文本信息，不再參考原始文本，因此分詞的效果不好，等同于引入了錯誤的訓練數據。分詞本身也是一個值得大書特書的問題，目前比較常用的方法有詞典法，隱馬爾科夫模型和新興的CRF方法。

預處理中在分詞之后的“去停止詞”一步對兩者來說是相同的，都是要把語言中一些表意能力很差的輔助性文字從原始文本中去除，對中文文本來說，類似“我們”，“在”，“了”，“的”這樣的詞匯都會被去除，英文中的“ an”，“in”，“the”等也一樣。這一步驟會參照一個被稱為“停止詞表”的數據（里面記錄了應該被去除的詞，有可能是以文件形式存儲在硬盤上，也有可能是以數據結構形式放在內存中）來進行。

對中文文本來說，到此就已初審合格，可以參加訓練了（笑）。而英文文本還有進一步簡化和壓縮的空間。我們都知道，英文中同一個詞有所謂詞形的變化（相對的，詞義本身卻并沒有變），例如名詞有單復數的變化，動詞有時態的變化，形容詞有比較級的變化等等，還包括這些變化形式的某種組合。而正因為詞義本身沒有變化，僅僅詞形不同的詞就不應該作為獨立的詞來存儲和和參與分類計算。去除這些詞形不同，但詞義相同的詞，僅保留一個副本的步驟就稱為“詞根還原”，例如在一篇英文文檔中，經過詞根還原后，“computer”，“compute”，“computing”，“computational”這些詞全都被處理成“compute”（大小寫轉換也在這一步完成，當然，還要記下這些詞的數目作為compute的詞頻信息）。

經過預處理步驟之后，原始文檔轉換成了非常節省資源，也便于計算的形式，后面的訓練階段大同小異（僅僅抽取出的特征不同而已，畢竟，一個是中文詞匯的集合，一個是英文詞匯的集合嘛）。

下一章節侃侃分類問題本身的分類。

posted @ 2008-06-05 17:33 Jasper 閱讀(4890) | 評論 (0) | 編輯收藏

文本分類入門(七)相關概念總結

學習方法：使用樣例（或稱樣本，訓練集）來合成計算機程序的過程稱為學習方法[22]。

監督學習：學習過程中使用的樣例是由輸入/輸出對給出時，稱為監督學習[22]。最典型的監督學習例子就是文本分類問題，訓練集是一些已經明確分好了類別文檔組成，文檔就是輸入，對應的類別就是輸出。

非監督學習：學習過程中使用的樣例不包含輸入/輸出對，學習的任務是理解數據產生的過程 [22]。典型的非監督學習例子是聚類，類別的數量，名稱，事先全都沒有確定，由計算機自己觀察樣例來總結得出。

TSR（Term Space Reduction）：特征空間的壓縮，即降維，也可以叫做特征提取。包括特征選擇和特征抽取兩大類方法。

分類狀態得分（CSV，Categorization Status Value)：用于描述將文檔歸于某個類別下有多大的可信度。

準確率（Precision）：在所有被判斷為正確的文檔中，有多大比例是確實正確的。

召回率（Recall）：在所有確實正確的文檔中，有多大比例被我們判為正確。

假設：計算機對訓練集背后的真實模型（真實的分類規則）的猜測稱為假設。可以把真實的分類規則想像為一個目標函數，我們的假設則是另一個函數，假設函數在所有的訓練數據上都得出與真實函數相同（或足夠接近）的結果。

泛化性：一個假設能夠正確分類訓練集之外數據（即新的，未知的數據）的能力稱為該假設的泛化性[22]。

一致假設：一個假設能夠對所有訓練數據正確分類，則稱這個假設是一致的[22]。

過擬合：為了得到一致假設而使假設變得過度復雜稱為過擬合[22]。想像某種學習算法產生了一個過擬合的分類器，這個分類器能夠百分之百的正確分類樣本數據（即再拿樣本中的文檔來給它，它絕對不會分錯），但也就為了能夠對樣本完全正確的分類，使得它的構造如此精細復雜，規則如此嚴格，以至于任何與樣本數據稍有不同的文檔它全都認為不屬于這個類別！

超平面（Hyper Plane）：n維空間中的線性函數唯一確定了一個超平面。一些較直觀的例子，在二維空間中，一條直線就是一個超平面；在三維空間中，一個平面就是一個超平面。

線性可分和不可分：如果存在一個超平面能夠正確分類訓練數據，并且這個程序保證收斂，這種情況稱為線形可分。如果這樣的超平面不存在，則稱數據是線性不可分的[22]。

正樣本和負樣本：對某個類別來說，屬于這個類別的樣本文檔稱為正樣本；不屬于這個類別的文檔稱為負樣本。

規劃：對于目標函數，等式或不等式約束都是線性函數的問題稱為線性規劃問題。對于目標函數是二次的，而約束都是線性函數的最優化問題稱為二次規劃問題[22]。

對偶問題：

給定一個帶約束的優化問題

目標函數：min f(x)

約束條件：C(x) ≥0

可以通過拉格朗日乘子構造拉格朗日函數

L(x,λ)=f(x)- λ^TC(x)

令g(λ)= f(x)- λ^TC(x)

則原問題可以轉化為

目標函數：max g(λ)

約束條件：λ≥0

這個新的優化問題就稱為原問題的對偶問題（兩個問題在取得最優解時達到的條件相同）。

posted @ 2008-06-05 00:26 Jasper 閱讀(4975) | 評論 (0) | 編輯收藏

文本分類入門(六)訓練Part 3

SVM算法
支持向量機(Support Vector Machine)是Cortes和Vapnik于1995年首先提出的，它在解決小樣本、非線性及高維模式識別中表現出許多特有的優勢，并能夠推廣應用到函數擬合等其他機器學習問題中[10]。
支持向量機方法是建立在統計學習理論的VC 維理論和結構風險最小原理基礎上的，根據有限的樣本信息在模型的復雜性（即對特定訓練樣本的學習精度，Accuracy）和學習能力（即無錯誤地識別任意樣本的能力）之間尋求最佳折衷，以期獲得最好的推廣能力[14]（或稱泛化能力）。
SVM 方法有很堅實的理論基礎，SVM 訓練的本質是解決一個二次規劃問題（Quadruple Programming，指目標函數為二次函數，約束條件為線性約束的最優化問題），得到的是全局最優解，這使它有著其他統計學習技術難以比擬的優越性。SVM 分類器的文本分類效果很好，是最好的分類器之一。同時使用核函數將原始的樣本空間向高維空間進行變換，能夠解決原始樣本線性不可分的問題。其缺點是核函數的選擇缺乏指導，難以針對具體問題選擇最佳的核函數；另外SVM 訓練速度極大地受到訓練集規模的影響，計算開銷比較大，針對SVM 的訓練速度問題，研究者提出了很多改進方法，包括Chunking 方法、Osuna 算法、SMO 算法和交互SVM 等等[14]。
SVM分類器的優點在于通用性較好，且分類精度高、分類速度快、分類速度與訓練樣本個數無關，在查準和查全率方面都優于kNN及樸素貝葉斯方法[8]。
與其它算法相比，SVM算法的理論基礎較為復雜，但應用前景很廣，我打算專門寫一個系列的文章，詳細的討論SVM算法，stay tuned！

介紹過了幾個很具代表性的算法之后，不妨用國內外的幾組實驗數據來比較一下他們的優劣。
在中文語料上的試驗，文獻[6]使用了復旦大學自然語言處理實驗室提供的基準語料對當前的基于詞向量空間文本模型的幾種分類算法進行了測試，這一基準語料分為20個類別，共有9804篇訓練文檔，以及9833篇測試文檔。在經過統一的分詞處理、噪聲詞消除等預處理之后，各個分類方法的性能指標如下。

其中F1 測度是一種綜合了查準率與召回率的指標，只有當兩個值均比較大的時候，對應的F1測度才比較大，因此是比單一的查準或召回率更加具有代表性的指標。
由比較結果不難看出，SVM和kNN明顯優于樸素貝葉斯方法（但他們也都優于Rocchio方法，這種方法已經很少再參加評測了）。
在英文語料上，路透社的Reuters-21578 “ModApt´e”是比較常用的測試集，在這個測試集上的測試由很多人做過，Sebastiani在文獻[23]中做了總結，相關算法的結果摘錄如下：

分類算法

在Reuters-21578 “ModApt´e”上的F1測度

Rocchio

0.776

樸素貝葉斯

0.795

kNN

0.823

SVM

0.864

僅以F1測度來看，kNN是相當接近SVM算法的，但F1只反映了分類效果（即分類分得準不準），而沒有考慮性能（即分類分得快不快）。綜合而論，SVM是效果和性能均不錯的算法。

前面也提到過，訓練階段的最終產物就是分類器，分類階段僅僅是使用這些分類器對新來的文檔分類而已，沒有過多可說的東西。
下一章節是對到目前為止出現過的概念的列表及簡單的解釋，也會引入一些后面會用到的概念。再之后會談及分類問題本身的分類（繞口），中英文分類問題的相似與不同之處以及幾種特征提取算法的概述和比較，路漫漫……

posted @ 2008-06-03 23:20 Jasper 閱讀(5945) | 評論 (7) | 編輯收藏

文本分類入門(五)訓練Part 2

將樣本數據成功轉化為向量表示之后，計算機才算開始真正意義上的“學習”過程。
再重復一次，所謂樣本，也叫訓練數據，是由人工進行分類處理過的文檔集合，計算機認為這些數據的分類是絕對正確的，可以信賴的（但某些方法也有針對訓練數據可能有錯誤而應對的措施）。接下來的一步便是由計算機來觀察這些訓練數據的特點，來猜測一個可能的分類規則（這個分類規則也可以叫做分類器，在機器學習的理論著作中也叫做一個“假設”，因為畢竟是對真實分類規則的一個猜測），一旦這個分類滿足一些條件，我們就認為這個分類規則大致正確并且足夠好了，便成為訓練階段的最終產品——分類器！再遇到新的，計算機沒有見過的文檔時，便使用這個分類器來判斷新文檔的類別。

舉一個現實中的例子，人們評價一輛車是否是“好車”的時候，可以看作一個分類問題。我們也可以把一輛車的所有特征提取出來轉化為向量形式。在這個問題中詞典向量可以為：
   D=（價格，最高時速，外觀得分，性價比，稀有程度）
則一輛保時捷的向量表示就可以寫成
    vp=（200萬，320，9.5，3，9）
而一輛豐田花冠則可以寫成
   vt=（15萬，220，6.0，8，3）
找不同的人來評價哪輛車算好車，很可能會得出不同的結論。務實的人認為性價比才是評判的指標，他會認為豐田花冠是好車而保時捷不是；喜歡奢華的有錢人可能以稀有程度來評判，得出相反的結論；喜歡綜合考量的人很可能把各項指標都加權考慮之后才下結論。
可見，對同一個分類問題，用同樣的表示形式（同樣的文檔模型），但因為關注數據不同方面的特性而可能得到不同的結論。這種對文檔數據不同方面側重的不同導致了原理和實現方式都不盡相同的多種方法，每種方法也都對文本分類這個問題本身作了一些有利于自身的假設和簡化，這些假設又接下來影響著依據這些方法而得到的分類器最終的表現，可謂環環相連，絲絲入扣，冥冥之中自有天意呀（這都什么詞兒……）。
比較常見，家喻戶曉，常年被評為國家免檢產品（？！）的分類算法有一大堆，什么決策樹，Rocchio，樸素貝葉斯，神經網絡，支持向量機，線性最小平方擬合，kNN，遺傳算法，最大熵，Generalized Instance Set等等等等（這張單子還可以繼續列下去）。在這里只挑幾個最具代表性的算法侃一侃。

Rocchio算法
Rocchio算法應該算是人們思考文本分類問題時最先能想到，也最符合直覺的解決方法。基本的思路是把一個類別里的樣本文檔各項取個平均值（例如把所有“體育”類文檔中詞匯“籃球”出現的次數取個平均值，再把“裁判”取個平均值，依次做下去），可以得到一個新的向量，形象的稱之為“質心”，質心就成了這個類別最具代表性的向量表示。再有新文檔需要判斷的時候，比較新文檔和質心有多么相像（八股點說，判斷他們之間的距離）就可以確定新文檔屬不屬于這個類。稍微改進一點的Rocchio算法不盡考慮屬于這個類別的文檔（稱為正樣本），也考慮不屬于這個類別的文檔數據（稱為負樣本），計算出來的質心盡量靠近正樣本同時盡量遠離負樣本。Rocchio算法做了兩個很致命的假設，使得它的性能出奇的差。一是它認為一個類別的文檔僅僅聚集在一個質心的周圍，實際情況往往不是如此（這樣的數據稱為線性不可分的）；二是它假設訓練數據是絕對正確的，因為它沒有任何定量衡量樣本是否含有噪聲的機制，因而也就對錯誤數據毫無抵抗力。
不過Rocchio產生的分類器很直觀，很容易被人類理解，算法也簡單，還是有一定的利用價值的（做漢奸狀），常常被用來做科研中比較不同算法優劣的基線系統（Base Line）。

樸素貝葉斯算法（Naive Bayes）
貝葉斯算法關注的是文檔屬于某類別概率。文檔屬于某個類別的概率等于文檔中每個詞屬于該類別的概率的綜合表達式。而每個詞屬于該類別的概率又在一定程度上可以用這個詞在該類別訓練文檔中出現的次數（詞頻信息）來粗略估計，因而使得整個計算過程成為可行的。使用樸素貝葉斯算法時，在訓練階段的主要任務就是估計這些值。
樸素貝葉斯算法的公式只有一個

P(wi|Ci)就代表詞匯wi屬于類別Ci的概率。
這其中就蘊含著樸素貝葉斯算法最大的兩個缺陷。
首先，P(d| Ci)之所以能展開成（式1）的連乘積形式，就是假設一篇文章中的各個詞之間是彼此獨立的，其中一個詞的出現絲毫不受另一個詞的影響（回憶一下概率論中變量彼此獨立的概念就可以知道），但這顯然不對，即使不是語言學專家的我們也知道，詞語之間有明顯的所謂“共現”關系，在不同主題的文章中，可能共現的次數或頻率有變化，但彼此間絕對談不上獨立。
其二，使用某個詞在某個類別訓練文檔中出現的次數來估計P(wi|Ci)時，只在訓練樣本數量非常多的情況下才比較準確（考慮扔硬幣的問題，得通過大量觀察才能基本得出正反面出現的概率都是二分之一的結論，觀察次數太少時很可能得到錯誤的答案），而需要大量樣本的要求不僅給前期人工分類的工作帶來更高要求（從而成本上升），在后期由計算機處理的時候也對存儲和計算資源提出了更高的要求。

kNN算法則又有所不同，在kNN算法看來，訓練樣本就代表了類別的準確信息（因此此算法產生的分類器也叫做“基于實例”的分類器），而不管樣本是使用什么特征表示的。其基本思想是在給定新文檔后，計算新文檔特征向量和訓練文檔集中各個文檔的向量的相似度，得到K篇與該新文檔距離最近最相似的文檔，根據這K篇文檔所屬的類別判定新文檔所屬的類別（注意這也意味著kNN算法根本沒有真正意義上的“訓練”階段）。這種判斷方法很好的克服了Rocchio算法中無法處理線性不可分問題的缺陷，也很適用于分類標準隨時會產生變化的需求（只要刪除舊訓練文檔，添加新訓練文檔，就改變了分類的準則）。
kNN唯一的也可以說最致命的缺點就是判斷一篇新文檔的類別時，需要把它與現存的所有訓練文檔全都比較一遍，這個計算代價并不是每個系統都能夠承受的（比如我將要構建的一個文本分類系統，上萬個類，每個類即便只有20個訓練樣本，為了判斷一個新文檔的類別，也要做20萬次的向量比較！）。一些基于kNN的改良方法比如Generalized Instance Set就在試圖解決這個問題。

下一節繼續講和訓練階段有關的話題，包括概述已知性能最好的SVM算法。明兒見！（北京人兒，呵呵）

posted @ 2008-06-02 23:53 Jasper 閱讀(6857) | 評論 (1) | 編輯收藏

文本分類入門(四)訓練Part 1

訓練，顧名思義，就是training（汗，這解釋），簡單的說就是讓計算機從給定的一堆文檔中自己學習分類的規則（如果學不對的話，還要，打屁屁？）。

開始訓練之前，再多說幾句關于VSM這種文檔表示模型的話。
舉個例子，假設說把我正在寫的“文本分類入門”系列文章的第二篇抽出來當作一個需要分類的文本，則可以用如下的向量來表示這個文本，以便于計算機理解和處理。

    w2=（文本，5，統計學習，4，模型，0，……）

這個向量表示在w2所代表的文本中，“文本”這個詞出現了5次（這個信息就叫做詞頻），“統計學習”這個詞出現了4次，而“模型”這個詞出現了0次，依此類推，后面的詞沒有列出。
而系列的第三篇文章可以表示為

    w3=（文本，9，統計學習，4，模型，10，……）

其含義同上。如果還有更多的文檔需要表示，我們都可以使用這種方式。
只通過觀察w2和w3我們就可以看出實際上有更方便的表示文本向量的方法，那就是把所有文檔都要用到的詞從向量中抽離出來，形成共用的數據結構（也可以仍是向量的形式），這個數據結構就叫做詞典，或者特征項集合。
例如我們的問題就可以抽離出一個詞典向量

    D=（文本，統計學習，模型，……）

所有的文檔向量均可在參考這個詞典向量的基礎上簡化成諸如

    w2=（5，4，0，……）
    w3=（9，4，10，……）

的形式，其含義沒有改變。
5，4，10這些數字分別叫做各個詞在某個文檔中的權重，實際上單單使用詞頻作為權重并不多見，也不十分有用，更常見的做法是使用地球人都知道的TF/IDF值作為權重。（關于TF/IDF的詳細解釋，Google的吳軍研究員寫了非常通俗易懂的文章，發布于Google黑板報，鏈接地址是http://googlechinablog.com/2006/06/blog-post_27.html，有興趣不妨一讀）TF/IDF作為一個詞對所屬文檔主題的貢獻程度來說，是非常重要的度量標準，也是將文檔轉化為向量表示過程中的重要一環。

在這個轉化過程中隱含了一個很嚴重的問題。注意看看詞典向量D，你覺得它會有多大？或者說，你覺得它會包含多少個詞？
假設我們的系統僅僅處理漢語文本，如果不做任何處理，這個詞典向量會包含漢語中所有的詞匯，我手頭有一本商務印書館出版的《現代漢語詞典》第5版（2005年5月出版），其中收錄了65，000個詞，D大致也應該有這么大，也就是說，D是一個65，000維的向量，而所有的文本向量w2,w3,wn也全都是65，000維的！（這是文本分類這一問題本身的一個特性，稱為“高維性”）想一想，大部分文章僅僅千余字，包含的詞至多幾百，為了表示這樣一個文本，卻要使用65，000維的向量，這是對存儲資源和計算能力多大的浪費呀！（這又是文本分類問題的另一個特性，稱為“向量稀疏性”，后面會專門有一章討論這些特性，并指出解決的方法，至少是努力的方向）
中國是一個人口眾多而資源稀少的國家，我們不提倡一味發展粗放型的經濟，我們所需要的可持續發展是指資源消耗少，生產效率高，環境污染少……跑題了……
這么多的詞匯當中，諸如“體育”，“經濟”，“金融”，“處理器”等等，都是極其能夠代表文章主題的，但另外很多詞，像“我們”，“在”，“事情”，“里面”等等，在任何主題的文章中都很常見，根本無法指望通過這些詞來對文本類別的歸屬作個判斷。這一事實首先引發了對文本進行被稱為“去停止詞”的預處理步驟（對英文來說還有詞根還原，但這些與訓練階段無關，不贅述，會在以后講述中英文文本分類方法區別的章節中討論），與此同時，我們也從詞典向量D中把這些詞去掉。
但經過停止詞處理后剩下的詞匯仍然太多，使用了太多的特征來表示文本，就是常說的特征集過大，不僅耗費計算資源，也因為會引起“過擬合問題”而影響分類效果[22]。
這個問題是訓練階段要解決的第一個問題，即如何選取那些最具代表性的詞匯（更嚴格的說法應該是，那些最具代表性的特征，為了便于理解，可以把特征暫時當成詞匯來想象）。對這個問題的解決，有人叫它特征提取，也有人叫它降維。
特征提取實際上有兩大類方法。一類稱為特征選擇（Term Selection），指的是從原有的特征（那許多有用無用混在一起的詞匯）中提取出少量的，具有代表性的特征，但特征的類型沒有變化（原來是一堆詞，特征提取后仍是一堆詞，數量大大減少了而已）。另一類稱為特征抽取（Term Extraction）的方法則有所不同，它從原有的特征中重構出新的特征（原來是一堆詞，重構后變成了別的，例如LSI將其轉為矩陣，文檔生成模型將其轉化為某個概率分布的一些參數），新的特征具有更強的代表性，并耗費更少的計算資源。（特征提取的各種算法會有專門章節討論）
訓練階段，計算機根據訓練集中的文檔，使用特征提取找出最具代表性的詞典向量（仍然是不太嚴格的說法），然后參照這個詞典向量把這些訓練集文檔轉化為向量表示，之后的所有運算便都使用這些向量進行，不再理會原始的文本形式的文檔了（換言之，失寵了，后后）。

下一章繼續訓練，咱們之間還沒完。（怎么聽著像要找人尋仇似的）

posted @ 2008-06-01 23:49 Jasper 閱讀(7454) | 評論 (6) | 編輯收藏

文本分類入門(三)統計學習方法

前文說到使用統計學習方法進行文本分類就是讓計算機自己來觀察由人提供的訓練文檔集，自己總結出用于判別文檔類別的規則和依據。理想的結果當然是讓計算機在理解文章內容的基礎上進行這樣的分類，然而遺憾的是，我們所說的“理解”往往指的是文章的語義甚至是語用信息，這一類信息極其復雜，抽象，而且存在上下文相關性，對這類信息如何在計算機中表示都是尚未解決的問題（往大里說，這是一個“知識表示”的問題，完全可以另寫一系列文章來說了），更不要說讓計算機來理解。
利用計算機來解決問題的標準思路應該是：為這種問題尋找一種計算機可以理解的表示方法，或曰建立一個模型（一個文檔表示模型）；然后基于這個模型，選擇各方面滿足要求的算法來解決。用譚浩強的話說，程序，就是數據+算法。（啥？你不知道譚浩強是誰？上過學么？學過C么？這搗什么亂？）
既然文本的語義和語用信息很難轉換成計算機能夠理解的表示形式，接下來順理成章的，人們開始用文章中所包含的較低級別的詞匯信息來表示文檔，一試之下，效果居然還不錯。
統計學習方法進行文本分類（以下就簡稱為“統計學習方法”，雖然這個方法也可以應用到除文本分類以外的多個領域）的一個重要前提由此產生，那就是認為：文檔的內容與其中所包含的詞有著必然的聯系，同一類文檔之間總存在多個共同的詞，而不同類的文檔所包含的詞之間差異很大[1]。
進一步的，不光是包含哪些詞很重要，這些詞出現的次數對分類也很重要。
這一前提使得向量模型（俗稱的VSM，向量空間模型）成了適合文本分類問題的文檔表示模型。在這種模型中，一篇文章被看作特征項集合來看，利用加權特征項構成向量進行文本表示，利用詞頻信息對文本特征進行加權。它實現起來比較簡單，并且分類準確度也高，能夠滿足一般應用的要求。[5]
而實際上，文本是一種信息載體，其所攜帶的信息由幾部分組成：如組成元素本身的信息（詞的信息）、組成元素之間順序關系帶來的信息以及上下文信息（更嚴格的說，還包括閱讀者本身的背景和理解）[12]。
而VSM這種文檔表示模型，基本上完全忽略了除詞的信息以外所有的部分，這使得它能表達的信息量存在上限[12]，也直接導致了基于這種模型構建的文本分類系統（雖然這是目前絕對主流的做法），幾乎永遠也不可能達到人類的分類能力。后面我們也會談到，相比于所謂的分類算法，對特征的選擇，也就是使用哪些特征來代表一篇文檔，往往更能影響分類的效果。
對于擴充文檔表示模型所包含的信息量，人們也做過有益的嘗試，例如被稱為LSI（Latent Semantic Index潛在語義索引）的方法，就被實驗證明保留了一定的語義信息（之所以說被實驗證明了，是因為人們還無法在形式上嚴格地證明它確實保留了語義信息，而且這種語義信息并非以人可以理解的方式被保留下來），此為后話。

前文說到（就不能不用這種老舊的說法？換換新的，比如Previously on "Prison Break"，噢，不對，是Previously on Text Categorizaiton……）統計學習方法其實就是一個兩階段的解決方案，（1）訓練階段，由計算機來總結分類的規則；（2）分類階段，給計算機一些它從來沒見過的文檔，讓它分類（分不對就打屁屁）。

下一章就專門說說訓練階段的二三事。

posted @ 2008-06-01 00:02 Jasper 閱讀(6939) | 評論 (2) | 編輯收藏

文本分類入門(二)文本分類的方法

文本分類問題與其它分類問題沒有本質上的區別，其方法可以歸結為根據待分類數據的某些特征來進行匹配，當然完全的匹配是不太可能的，因此必須（根據某種評價標準）選擇最優的匹配結果，從而完成分類。
因此核心的問題便轉化為用哪些特征表示一個文本才能保證有效和快速的分類（注意這兩方面的需求往往是互相矛盾的）。因此自有文本分類系統的那天起，就一直是對特征的不同選擇主導著方法派別的不同。

最早的詞匹配法僅僅根據文檔中是否出現了與類名相同的詞（頂多再加入同義詞的處理）來判斷文檔是否屬于某個類別。很顯然，這種過于簡單的方法無法帶來良好的分類效果。

后來興起過一段時間的知識工程的方法則借助于專業人員的幫助，為每個類別定義大量的推理規則，如果一篇文檔能滿足這些推理規則，則可以判定屬于該類別。這里與特定規則的匹配程度成為了文本的特征。由于在系統中加入了人為判斷的因素，準確度比詞匹配法大為提高。但這種方法的缺點仍然明顯，例如分類的質量嚴重依賴于這些規則的好壞，也就是依賴于制定規則的“人”的好壞；再比如制定規則的人都是專家級別，人力成本大幅上升常常令人難以承受；而知識工程最致命的弱點是完全不具備可推廣性，一個針對金融領域構建的分類系統，如果要擴充到醫療或社會保險等相關領域，則除了完全推倒重來以外沒有其他辦法，常常造成巨大的知識和資金浪費。

后來人們意識到，究竟依據什么特征來判斷文本應當隸屬的類別這個問題，就連人類自己都不太回答得清楚，有太多所謂“只可意會，不能言傳”的東西在里面。人類的判斷大多依據經驗以及直覺，因此自然而然的會有人想到何讓機器像人類一樣自己來通過對大量同類文檔的觀察來自己總結經驗，作為今后分類的依據。
這便是統計學習方法的基本思想（也有人把這一大類方法稱為機器學習，兩種叫法只是涵蓋范圍大小有些區別，均無不妥）。
統計學習方法需要一批由人工進行了準確分類的文檔作為學習的材料（稱為訓練集，注意由人分類一批文檔比從這些文檔中總結出準確的規則成本要低得多），計算機從這些文檔重挖掘出一些能夠有效分類的規則，這個過程被形象的稱為訓練，而總結出的規則集合常常被稱為分類器。訓練完成之后，需要對計算機從來沒有見過的文檔進行分類時，便使用這些分類器來進行。
現如今，統計學習方法已經成為了文本分類領域絕對的主流。主要的原因在于其中的很多技術擁有堅實的理論基礎（相比之下，知識工程方法中專家的主觀因素居多），存在明確的評價標準，以及實際表現良好。

下一章就深入統計學習方法，看看這種方法的前提，相關理論和具體實現。

posted @ 2008-05-31 22:52 Jasper 閱讀(7875) | 評論 (0) | 編輯收藏

文本分類入門(參考文獻)

文本分類入門系列所有文章的參考文獻集中列于此,其他文章中再做引用時僅列出標號,不再重復寫出作者和出版物,出版年份等信息.
[1]李曉明，閆宏飛，王繼民，“搜索引擎——原理、技術與系統”.科學出版社，2004
[2]馮是聰, "中文網頁自動分類技術研究及其在搜索引擎中的應用," 北京大學,博士論文, 2003
[3]Y. Yang and X. Liu, "A re-examination of text categorization methods" presented at Proceedings of ACM SIGIR Conference on Research and Development in Information Retrieval (SIGIR'99), 1999.
[4]F. Sebastiani, "A tutorial on Automated Text Categorization", Proceedings of ASAI-99, 1st Argentinian Symposium on Artificial Intelligence, Buenos Aires, AR, 1999
[5]王濤：文本自動分類研究，圖書館學研究，2007.12
[6]周文霞：現代文本分類技術研究，武警學院學報，2007.12
[7]奉國和：自動文本分類技術研究，情報雜志，2007.12
[8]崔彩霞，張朝霞：文本分類方法對比研究，太原師范學院學報（自然科學版），2007.12
[9]吳軍：Google黑板報數學之美系列，http://googlechinablog.com
[10]劉霞，盧葦：SVM在文本分類中的應用研究，計算機教育，2007.1
[11]都云琪，肖詩斌：基于支持向量機的中文文本自動分類研究,計算機工程，2002，28(11)
[12]周昭濤，卜東波：文本的圖表示初探，中文信息學報，第19卷第2期
[13]Baeza-Yates,R.and Ribeiro-Neto:Modern Information Retrieval,1st ed.Addison Wesley Longman,Reading,MA,1999
[14]唐春生，張磊：文本分類研究進展
[15]李莼，羅振聲：基于語義相關和概念相關的自動分類方法研究，計算機工程與應用，2003.12
[16]單松巍，馮是聰，李曉明：幾種典型特征選取方法在中文網頁分類上的效果比較，計算機工程與應用，2003.22
[17]Yiming Yang,Jan O Pedersen:A comparative Study on Feature Selection in Text Categorization, Proceedings of the Fourteenth International Conference on Machine Learning(ICML~97)，l997
[18]董振東：知網簡介，知網，http://www.keenage.com/zhiwang/c_zhiwang.html
[19]Tom M.Mitchell,”Machine Learning”,McGraw Hill Companies，1997
[20] Edda Leopold, Jorg Kindermann,“Text Categorization with Support Vector Machines：How to Represent Texts in Input Space?”, Kluwer Academic Publishers,2002
[21] Thorsten Joachims,”Text Categorization with Support Vector Machines: Learning with Many Relevant Features”
[22]Nello Cristianini,An Introduction to Support Vector Machines and Other Kernel-based Learning Methods,Cambridge University Press,2000
[23]F. Sebastiani, "MACHINE LEARNING IN AUTOMATED TEXT CATEGORIZATION", ACM Computing Surveys, Vol. 34, No. 1, 2002
[24]TRS公司，TRS文本挖掘基礎件白皮書
[25]蘇金樹，張博鋒：基于機器學習的文本分類技術研究進展，Journal of Software,2006.9

posted @ 2008-05-31 20:08 Jasper 閱讀(7935) | 評論 (0) | 編輯收藏

公告

常用鏈接

留言簿(64)

隨筆分類

隨筆檔案

文章分類

搜索

最新評論

閱讀排行榜

評論排行榜

Jasper's Java Jacal 嘉士伯的Java小屋
BlogJava \| 首頁 \| 發新隨筆 \| 發新文章 \| 聯系 \| 聚合 \| 管理	隨筆：51 文章：2 評論：717 引用：0