決策樹程式碼(以CART模型為例)
參數介紹:
criterion | ”gini” or “entropy”(default=”gini”)選擇以gini (基尼不纯度) 或entropy (信息增益),來做節點評估,默認為gini。 |
splitter | ‘’best’’ or ’’random’’ (default=’’best’’) 選擇不純度最大的特徵或隨機選擇特徵。 |
max_depth | (default=None) 樹的深度,大於設定的值就剪枝。 |
min_samples_leaf | 分枝後的葉子節點最少的樣本數。 |
min_samples_decrease | 信息增益大小,小於設定值不會進行分枝(0.19版前為min_samples_split)。 |
class_weight | 給予樣本權重。ex.違約與不違約數據3%與97%,則會使預測偏向不違約,因此要給予權重。預設(None):給予兩者相同權重。 |
Min_weight_fraction_leaf | (default=0) 葉子節點所需要的最小權值。 |
max_leaf_nodes | (default=None)葉子樹的最大樣本數。 |
max_features | 特徵選取最大值。 |
實作(分析train_data.csv檔案)
預測模型結果