1、Weka中所有的學習算法都繼承自weka.classifiers.Classifier?;痉诸惼魇趾唵?,一個程序用于從訓練數據創建分類器,另一個程序則通過未知數據來驗證生成模型,或者為所有的類生成概率分布。
2、數據串行化需要實現Serializable接口,可以把對象串行化到持久存儲中,還沒怎么用過,除了做Eclipse插件時修改過。存儲時,還可以選擇壓縮存儲。
3、把所有的數據放在Instance中。weka有Instance類,里面還有各種Attribute。有點像Lucene的Document類可以有多個Field一樣。
4、ARFF是表達包含相互獨立、沒有次序關系數據實例數據集的一種標準方式。(在Weka中應該是大量使用這種數據格式)。ARFF文件只給出dataset,并沒有說明需要通過哪些屬性預測另外哪個屬性。這說明,通過同一個文件,可以研究哪些屬性可以較好地預測另外一個屬性,也可以研究關聯規則,或進行聚類操作。
@data 表示要開始給出數據集的數據實例了。
數據實例中,值通過逗號進行分隔。如果某個值是缺失的,則用一個問號表示。
ARFF允許使用兩種類型的數據,分別是名詞和數值類型。
5、