1、Weka中所有的學(xué)習算法都繼承自weka.classifiers.Classifier。基本分類器十分簡單,一個程序用于從訓(xùn)練數(shù)據(jù)創(chuàng)建分類器,另一個程序則通過未知數(shù)據(jù)來驗證生成模型,或者為所有的類生成概率分布。
2、數(shù)據(jù)串行化需要實現(xiàn)Serializable接口,可以把對象串行化到持久存儲中,還沒怎么用過,除了做Eclipse插件時修改過。存儲時,還可以選擇壓縮存儲。
3、把所有的數(shù)據(jù)放在Instance中。weka有Instance類,里面還有各種Attribute。有點像Lucene的Document類可以有多個Field一樣。
4、ARFF是表達包含相互獨立、沒有次序關(guān)系數(shù)據(jù)實例數(shù)據(jù)集的一種標準方式。(在Weka中應(yīng)該是大量使用這種數(shù)據(jù)格式)。ARFF文件只給出dataset,并沒有說明需要通過哪些屬性預(yù)測另外哪個屬性。這說明,通過同一個文件,可以研究哪些屬性可以較好地預(yù)測另外一個屬性,也可以研究關(guān)聯(lián)規(guī)則,或進行聚類操作。
@data 表示要開始給出數(shù)據(jù)集的數(shù)據(jù)實例了。
數(shù)據(jù)實例中,值通過逗號進行分隔。如果某個值是缺失的,則用一個問號表示。
ARFF允許使用兩種類型的數(shù)據(jù),分別是名詞和數(shù)值類型。
5、