表格如何计算相同数值不同列的最大值和最小值的差值?

在训练机器学和深度学习模型时,都需要数据作为支持,数据可看作一个矩阵,行为数据个数,列为数据特征。

在有监督学习中,某一列特征为目标值,无监督学习则没有,下面介绍几种常见的数据处理方法

下面以简单的iris数据集为例:


把每个类别生成一个布尔列,这些列中只有一列可以为这个样本取值为1.其又被称为热编码。

通过为每个类别分配一个唯一的整数值,将分类数据转换为数字,称为标签编码。


当我们有一个数字特征,需要把它转换成分类特征,使用分箱,减少目标值类别,提高标签的信息承载度


特征的单位或者大小相差较大,或者某特征的方差相比其他的特征要大出几个数量级,
容易影响(支配)目标结果,使得一些算法无法学习到其它的特征

通过对原始数据进行变换把数据映射到(默认为[0,1])之间

最大值与最小值非常容易受异常点影响,所以这种方法鲁棒性较差,只适合传统精确小数据场景

通过对原始数据进行变换把数据变换到均值为0,标准差为1范围内

方差越大,说明数据间差异越大




常用机器学习数据处理流程如下:

1.导入数据(编码,分箱,处理缺失值)

2.标准化(PCA降维)


}

我要回帖

更多关于 一组数据最大值和最小值之差 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信