詞的文檔頻率(DF,
即一個(gè)詞在多少篇文檔中出現(xiàn))
雖然并不用于真正的特征選擇,
但是作為特征選擇前的預(yù)處理手段還是經(jīng)常被使用,
因?yàn)槌霈F(xiàn)次數(shù)太少的詞(
低頻詞,
或者叫生僻詞)
往往是表意能力很差的詞,
更極端的情況下,
那種在幾萬(wàn)篇文檔中卻只出現(xiàn)幾次的詞更有可能是作者的筆誤(
即創(chuàng)造了一個(gè)不存在的詞),
使用它的更大好處還在于可以大大消減文檔集中需要處理的詞匯數(shù)量.
請(qǐng)看以下的數(shù)據(jù),
在上一篇文章中對(duì)復(fù)旦語(yǔ)料庫(kù)進(jìn)行分詞,
去停止詞,
去無(wú)用詞性的詞的基礎(chǔ)上,
再進(jìn)行一次根據(jù)DF
的處理,
去除所有文檔頻率小于等于3
的詞,
得到的對(duì)比結(jié)果如下.
文檔頻率篩選前
|
文檔頻率篩選后
|
總詞數(shù)116558
類別名稱:Agriculture
總詞數(shù):29163
類別名稱:Art
總詞數(shù):40816
類別名稱:Communication
總詞數(shù):2283
類別名稱:Computer
總詞數(shù):19340
類別名稱:Economy
總詞數(shù):37021
類別名稱:Education
總詞數(shù):5719
類別名稱:Electronics
總詞數(shù):2693
類別名稱:Energy
總詞數(shù):2848
類別名稱:Environment
總詞數(shù):25155
類別名稱:History
總詞數(shù):47205
類別名稱:Law
總詞數(shù):3834
類別名稱:Literature
總詞數(shù):5844
類別名稱:Medical
總詞數(shù):3877
類別名稱:Military
總詞數(shù):4615
類別名稱:Mine
總詞數(shù):3708
類別名稱:Philosophy
總詞數(shù):5190
類別名稱:Politics
總詞數(shù):35292
類別名稱:Space
總詞數(shù):14557
類別名稱:Sports
總詞數(shù):42665
類別名稱:Transport
總詞數(shù):4644
|
總詞數(shù)50283
類別名稱:Agriculture
總詞數(shù):23258
類別名稱:Art
總詞數(shù):30899
類別名稱:Communication
總詞數(shù):2207
類別名稱:Computer
總詞數(shù):15545
類別名稱:Economy
總詞數(shù):28363
類別名稱:Education
總詞數(shù):5437
類別名稱:Electronics
總詞數(shù):2604
類別名稱:Energy
總詞數(shù):2702
類別名稱:Environment
總詞數(shù):19781
類別名稱:History
總詞數(shù):31436
類別名稱:Law
總詞數(shù):3656
類別名稱:Literature
總詞數(shù):5500
類別名稱:Medical
總詞數(shù):3566
類別名稱:Military
總詞數(shù):4256
類別名稱:Mine
總詞數(shù):3507
類別名稱:Philosophy
總詞數(shù):4968
類別名稱:Politics
總詞數(shù):26046
類別名稱:Space
總詞數(shù):12136
類別名稱:Sports
總詞數(shù):30803
類別名稱:Transport
總詞數(shù):4276
|
怎么樣?總詞數(shù)從116558下降到50283,減少了一多半.可見生僻詞還是廣泛存在的.而具體到各個(gè)類別上也各不相同.減少的比較少的典型類別例如法律類,僅僅消減掉了4.6%的詞匯,而歷史類整整去除了33.4%!這倒也不難想象,因?yàn)榉筛拍钜话阌袠?biāo)準(zhǔn)的名稱和說(shuō)法,文章也都有通用的格式或成文的套路遵循,作者本身發(fā)揮的余地不大.而歷史類文章包含大量的人名地名和事件名稱,這些名稱出現(xiàn)數(shù)量多但每一個(gè)出現(xiàn)的次數(shù)相對(duì)較少,而同時(shí)人名地名也很難作為區(qū)分文章主題的依據(jù)(出現(xiàn)”諸葛”就一定是說(shuō)三國(guó)時(shí)期的事情么?我們計(jì)算所有位老師就姓諸葛,還恰好是搞自然語(yǔ)言處理方面的,呵呵),篩掉它們我們也不心疼.
有了這一步處理,又可以為開方檢驗(yàn)的計(jì)算增添不少方便.
(音樂再次響起,幕布再次緩慢拉上,燈光漸暗)