12-3 使用信息寻找最优划分

使用sklearn提供的接口

import numpy as np
import matplotlib.pyplot as plt

from sklearn import datasets

iris = datasets.load_iris()
X = iris.data[:, 2:]
y = iris.target

from sklearn.tree import DecisionTreeClassifier

dt_clf = DecisionTreeClassifier(max_depth=2, criterion='entropy')
dt_clf.fit(X, y)

def plot_decision_boundary(model, axis):
    x0, x1 = np.meshgrid(
        np.linspace(axis[0], axis[1], int((axis[1]-axis[0])*100)).reshape(-1,1),
        np.linspace(axis[2], axis[3], int((axis[3]-axis[2])*100)).reshape(-1,1)
    )
    X_new = np.c_[x0.ravel(), x1.ravel()]

    y_predict = model.predict(X_new)
    zz = y_predict.reshape(x0.shape)

    from matplotlib.colors import ListedColormap
    custom_cmap = ListedColormap(['#EF9A9A','#FFF59D','#90CAF9'])

    plt.contourf(x0, x1, zz, cmap=custom_cmap)

plot_decision_boundary(dt_clf, axis=[0.5, 7.5, 0, 3])
plt.scatter(X[y==0,0],X[y==0,1])
plt.scatter(X[y==1,0],X[y==1,1])
plt.scatter(X[y==2,0],X[y==2,1])
plt.show()

模拟使用信息熵进行划分

基于维度d上的值value对X和y进行划分

计算划分后的每一组的熵

寻找熵最小的d和value

进行一次划分:

输出: best_entropy = 0.6931471805599453 best_d = 0 # 代码横轴划分,表现是一根竖线 best_v = 2.45 与上面的图像结果不同,但与视频中的结果相同

存储划分结果:

entropy(y1_l) = 0.0 # 左边只有一种数据,因此信息熵为0 entropy(y1_r) = 0.6931471805599453

左边已经不需要划分了,继续划分右边即可

输出结果: best_entropy = 0.4132278899361904 best_d = 1 best_v = 1.75

entropy(y2_l) = 0.30849545083110386 entropy(y2_r) = 0.10473243910508653

两个结果都不为零,都可以继续划分

Last updated