<rt id="bn8ez"></rt>
<label id="bn8ez"></label>

  • <span id="bn8ez"></span>

    <label id="bn8ez"><meter id="bn8ez"></meter></label>

    Change Dir

    先知cd——熱愛生活是一切藝術(shù)的開始

    統(tǒng)計

    留言簿(18)

    積分與排名

    “牛”們的博客

    各個公司技術(shù)

    我的鏈接

    淘寶技術(shù)

    閱讀排行榜

    評論排行榜

    weka特征預(yù)處理的一些tip

    首先,提供兩個地址,這里包含了全部的內(nèi)容原文:
    http://weka.wikispaces.com/Text+categorization+with+Weka
    http://weka.wikispaces.com/ARFF+files+from+Text+Collections

    weka可以以目錄形式讀入數(shù)據(jù)
    然后再簡單說一下weka在做文本特征內(nèi)容處理時候需要注意的東西:
    聲明一點,在weka的gui下是沒法使用這個功能的:以目錄形式讀入數(shù)據(jù)。
    首先,把要處理的數(shù)據(jù)寫入到這樣的目錄結(jié)構(gòu)下:
    ...
    |
    +- text_example
    |
    +- class1
    |  |
    |  + file1.txt
    |  |
    |  + file2.txt
    |  |
    |  ...
    |
    +- class2
    |  |
    |  + another_file1.txt
    |  |
    |  + another_file2.txt
    |  |
    |  ...

    然后在源碼包下,命令行執(zhí)行 java weka.core.converters.TextDirectoryLoader -dir text_example > text_example.arff
    其中text_example就是數(shù)據(jù)所在的目錄,而后面的arff文件就是生成的arff文件。另外值得補充的一點是在獲得這樣的arff后哦,文本內(nèi)容是作為一個字符串特征存在的,也就是說生成的arff就是一個特征項加一個類標(biāo)簽,其中的類標(biāo)就是text_example目錄下級classX子目錄的名字。為了更方便使用,weka提供了一個有監(jiān)督的屬性過濾器,幫助分詞(這里指英文的split) ——StringToWordVector,這個是可以做TF/IDF的~~~
    下面的簡單代碼可以完成一個分類:
     1import weka.core.*;
     2import weka.core.converters.*;
     3import weka.classifiers.trees.*;
     4import weka.filters.*;
     5import weka.filters.unsupervised.attribute.*;
     6
     7import java.io.*;
     8
     9/**
    10 * Example class that converts HTML files stored in a directory structure into 
    11 * and ARFF file using the TextDirectoryLoader converter. It then applies the
    12 * StringToWordVector to the data and feeds a J48 classifier with it.
    13 *
    14 * @author FracPete (fracpete at waikato dot ac dot nz)
    15 */

    16public class TextCategorizationTest {
    17
    18  /**
    19   * Expects the first parameter to point to the directory with the text files.
    20   * In that directory, each sub-directory represents a class and the text
    21   * files in these sub-directories will be labeled as such.
    22   *
    23   * @param args        the commandline arguments
    24   * @throws Exception  if something goes wrong
    25   */

    26  public static void main(String[] args) throws Exception {
    27    // convert the directory into a dataset
    28    TextDirectoryLoader loader = new TextDirectoryLoader();
    29    loader.setDirectory(new File("./text_example"));
    30    Instances dataRaw = loader.getDataSet();
    31    System.out.println("\n\nImported data:\n\n" + dataRaw.numClasses());
    32
    33    // apply the StringToWordVector
    34    // (see the source code of setOptions(String[]) method of the filter
    35    // if you want to know which command-line option corresponds to which
    36    // bean property)
    37    StringToWordVector filter = new StringToWordVector();
    38    filter.setInputFormat(dataRaw);
    39    Instances dataFiltered = Filter.useFilter(dataRaw, filter);
    40    System.out.println("\n\nFiltered data:\n\n" + dataFiltered);
    41
    42    // train J48 and output model
    43    J48 classifier = new J48();
    44    classifier.buildClassifier(dataFiltered);
    45    System.out.println("\n\nClassifier model:\n\n" + classifier);
    46  }

    47}

    48

    最后,我還是建議數(shù)據(jù)建模和生成都自己寫程序,數(shù)據(jù)準(zhǔn)備往往自己的程序才能準(zhǔn)確的控制,weka最多是幫我們做一下selection和classification。
    另外補充一點,很多朋友問到了如何做文本分類,好吧,如果大家懶得去讀paper的話,首先我普及一點,不管什么分類,分類器基本是可以通用的,注意是基本。關(guān)鍵是模型的構(gòu)建和特征的生成。至于文本分類中用到的特征,TF*IDF還有其他如互信息,卡方統(tǒng)計,期望交叉熵等等,公式擺在那里,計算真的不難。因為就我接觸過的分類問題,文本分類的特征計算應(yīng)該是很容易的了。

    posted on 2012-04-24 16:09 changedi 閱讀(3909) 評論(0)  編輯  收藏 所屬分類: 機器學(xué)習(xí)

    主站蜘蛛池模板: 亚洲伊人久久精品影院| 免费无码成人AV片在线在线播放| 亚洲成年人啊啊aa在线观看| 国产精品亚洲精品| 成视频年人黄网站免费视频| 国产成人精品日本亚洲网址| 欧美最猛性xxxxx免费| 亚洲精品自偷自拍无码| 国产一级理论免费版| 黄色三级三级免费看| 伊人婷婷综合缴情亚洲五月| 中国在线观看免费的www| 久久国产亚洲电影天堂| 99re免费99re在线视频手机版| 综合自拍亚洲综合图不卡区| 人与禽交免费网站视频| 在线亚洲高清揄拍自拍一品区| 日韩视频免费一区二区三区| 阿v免费在线观看| 亚洲精品字幕在线观看| 四虎影视成人永久免费观看视频 | CAOPORN国产精品免费视频| 亚洲欧洲成人精品香蕉网| 免费不卡在线观看AV| 日本亚洲免费无线码| 亚洲色偷偷综合亚洲AV伊人| 免费观看一区二区三区| 亚洲欧洲日产韩国在线| 国产精品极品美女免费观看| a级毛片无码免费真人久久| 亚洲图片中文字幕| 一区国严二区亚洲三区| 久久免费福利视频| 亚洲偷自拍另类图片二区| 精品亚洲视频在线观看| 18级成人毛片免费观看| 亚洲AV成人无码久久WWW| 亚洲自偷自偷图片| 色婷婷7777免费视频在线观看| 午夜不卡AV免费| 亚洲香蕉在线观看|