12-5 CART和决策树中的超参数

决策树又叫CART CART = Classification And Regression Tree 根据某一个维度v和某一个域值d进行二分,这样得到的树就叫CART scikit-learn创建决策树的方法就叫CART。 还有其它创建决策树的方法,例如ID3、C4.5、C5.0

创建好决策树好,预测一个样本的时间复杂度为O(log(m)) 训练模型的时间复杂度为:O(nmlog(m)) 是非参数学习算法,非常容易产生过拟合。 实际使用决策树时都要进行剪枝,1.降低复杂度2.解决过拟合

决策树使用不同的超参数的结果对比

生成数据

import numpy as np
import matplotlib.pyplot as plt
from sklearn import datasets

X, y = datasets.make_moons(noise=0.25, random_state=666)

plt.scatter(X[y==0,0],X[y==0,1])
plt.scatter(X[y==1,0],X[y==1,1])
plt.show()

使用默认参数训练

典型的过拟合

使用不同的超参数的结果对比

default

max_depth=2

min_samples_split=10

min_samples_leaf=6

max_leaf_nodes=4

一直向下划分到所有gini系数都是0为止

最大深度

对于一个节点至少有多个样本才继续划分

叶子节点至少有几个样本

最多有多少个叶子

使用这些参数时: 1. 避免欠拟合 2. 使用风格搜索来组合这些参数

Last updated