4-3 训练数据集,测试数据集

判断机器学习算法的性能

改进:训练和测试数据集的分离,train test split

但这种方式也有它的问题,后面其它小节会讲到

准备iris数据

X.shape为(150, 4),y.shape为(150,)

train_test_split

注意1:本例中训练数据集的为如下: 因此按顺序取前多少个样本不会有很好的效果,要先对数据乱序化

注意2:本例中X和y是分离的,但它们不能分别乱序化。乱序化的同时要保证样本和标签是对应的。

在Notebook实现

将train_test_split封装成函数

KNN结合train_test_split计算分类准确度

sklearn中的train_test_split

Last updated