1、把零散的信息集成到數據倉庫中,對決策有巨大的好處。
2、數據清理應該是一個繁瑣的過程。即使是數據倉庫,也不可能包含所有的數據,如果沒有解決問題的全部數據,就需要到外部獲取數據,并對這些數據進行清理,同時把這些數據集成到數據倉庫中去。
3、經常需要對數據進行規格化操作,如使某個屬性的值在0-1區間。規格化操作的方法很多,如除以發現的最大數,或求統計均值,方差等。
4、通過使用距離函數,名詞值也可以轉成成數字。如兩個名字相同,則值為0,兩個名字不同,則值為1。
5、有時數據本身具備一些源自自身的映射關系,如電話號碼前的區號,郵編。學號前幾位數字可能代表該學生的入學時間等。
6、現實生活中遇到的大部分數據集,都會包含缺失值,即missing value。
7、數據有缺失是很正常的情形。如醫學實驗,如果動物在實驗完成之前就死掉了,有些數據就不能采集到了。數據缺失并不一定使用問號表示,也可以用超出正常值的一些特定值來表示,如使用負數和零等。即使同樣是缺失值,也可以有多種原因,可以使用不同的負值表示。。。
8、