4-7
Last updated
Last updated
样本间的距离被发现时间所主导 如果把发现时间改成以年为单位,样本间的距离又会被肿瘤大小所主导 如果不对样本进行预处理,样本间的距离可能会被部分特征主导 解决方案:将所有的数据映射到同一个尺度,即归一化
把所有数据映射到0-1之间
适用于分布有明显边界的情况,但是受outlier也就是极值(极端数据)影响较大会不准确
把所有数据归一到均值为0方差为1的分布中
适用于数据分布没有明显的边界,有可能存在极端的数据值,其中S是标准差。由于均值方差归一化对于符合最值归一化的数据集有着同样好的归一化处理结果,所以一般推荐使用均值方差归一化方法。
生成随机数据
归一化后
输入:np.mean(X2[:,0]) 输出:7.771561172376095e-17
输入:np.std(X2[:,0]) 输出:1.0