基于Clementine的C5.0決策樹實例分析(二)
來源:互聯網  日期:2015-10-14
    • 分享到QQ空間

數據挖掘的數據通常以變量為列,樣本為行的二維表形式組織,所以,Clementine數據的基本管理包括變量管理和樣本管理兩大方面。變量管理和樣本管理是數據準備的重要方面,是建立數據模型的前提和基礎。


(一)變量說明

變量說明是對讀入數據流中變量取值的有效性進行限定、檢查和修正,同時指明各個變量在未來建模中的角色。一方面,變量說明是確保高質量數據的有效手段,另一方面也是明確變量建模地位的重要途徑。


建立Excel節點,讀入Student.xls數據,利用表節點來查看數據。


1——導入數據


雙擊,瀏覽數據發現:家庭人均年收入變量中有部分樣本取$null$,為系統缺失值;另外一個由于不明原因而明顯錯誤的數據999999。應對它們進行恰當修正。是否無償獻血變量值填寫不規范,規范值應為YesNo,但出現了1(表示Yes)和0(表示No)。應將1替換為Yes0替換為No


2——部分數據


1、取值范圍和缺失值的說明

取值范圍即指變量正常值的區間。缺失值通常包括兩類,一類是系統缺失值,Clementine$null$表示,還包括空格或空白等。另一類是用戶缺失值,主要指那些取值明顯不合理的數據。


這里,首先,添加變量值標簽以規范是否無償獻血的取值,指定用戶缺失值;其次,說明家庭人均年收入的合理取值范圍。為此,在數據流中添加類型節點,選擇是否無償獻血和家庭人均年收入變量,分別選擇兩個變量的“缺失”列,選擇指定,定義變量取值范圍、用戶缺失值等信息。



3——取值范圍和缺失值說明


為指示是否無償獻血的合理取值,分別在YesNo行對應的標簽列中輸入變量值標簽無償獻血未無償獻血;家庭人均年收入的取值范圍不能直接由外部數據決定,否則Clementine將視999999(用戶缺失值)為正常值。手工輸入合理的取值區間為7333.074460.0,這樣該值則為不合理取值。“定義空白”選項,選中該選項,表示視下列值為空白。


4——取值范圍和缺失值設置


2、變量取值有效性檢查和修正

確定了變量的取值范圍后,通常還需要對變量取值進行檢查,主要對超出取值范圍的不合理數據或系統缺失值進行修正。


對家庭人均年收入的999999$null$值進行修正和替補。這里用一指定值替代,替換規則為:大于上限的用上限值替代,小于下限的用下限值替代,其余值用(最大值+最小值)/2替代。


5——變量取值有效性檢查和修正


3、變量角色的說明

學生的編號不參與建模,指定為None角色,另外,是否參與為輸出變量,其他變量均為輸入變量。



6——變量角色的說明

    • 分享到QQ空間
海南省体彩兑奖在哪里