sklearn实现归一化

归一化1、概览1.1、数据无量纲化1.2 归一化2、sklearn实现归一化2.1.引入库2.2.读入数据2.3、实例归一化方法1方法二（一步解决）2.4 逆转归一化结果2.5 将数据归一化到[0,1]以外的范围中1、概览1.1、数据无量纲化在机器学习算法实践中，我们往往有着将不同规格的数据转换到同一规格，或不同分布的数据转换到某个特定分布的需求，这种需求统称为将数据“无量纲化”。譬如梯度和矩阵为

Anonymous&

17789人浏览 · 2021-09-26 10:06:00

Anonymous& · 2021-09-26 10:06:00 发布

归一化

1、概览
- 1.1 数据无量纲化
- 1.2 归一化
2、sklearn实现归一化

1、概览

1.1 数据无量纲化

在机器学习算法实践中，我们往往有着将不同规格的数据转换到同一规格，或不同分布的数据转换到某个特定分布
的需求，这种需求统称为将数据“无量纲化”。譬如梯度和矩阵为核心的算法中，譬如逻辑回归，支持向量机，神经
网络，无量纲化可以加快求解速度；而在距离类模型，譬如K近邻，K-Means聚类中，无量纲化可以帮我们提升模
型精度，避免某一个取值范围特别大的特征对距离计算造成影响。（一个特例是决策树和树的集成算法们，对决策
树我们不需要无量纲化，决策树可以把任意数据都处理得很好。）
数据的无量纲化可以是线性的，也可以是非线性的。线性的无量纲化包括中心化（Zero-centered或者Meansubtraction）处理和缩放处理（Scale）。中心化的本质是让所有记录减去一个固定值，即让数据样本数据平移到
某个位置。缩放的本质是通过除以一个固定值，将数据固定在某个范围之中，取对数也算是一种缩放处理。

1.2 归一化

当数据(x)按照最小值中心化后，再按极差（最大值 - 最小值）缩放，数据移动了最小值个单位，并且会被收敛到
[0,1]之间，而这个过程，就叫做数据归一化(Normalization，又称Min-Max Scaling)。注意，Normalization是归
一化，不是正则化，真正的正则化是regularization，不是数据预处理的一种手段。归一化之后的数据服从正态分
布，公式如下：
$x^*=\frac{x-min(x)}{max(x)-min(x)}$

2、sklearn实现归一化

2.1.引入库

代码如下（示例）：

from sklearn.preprocessing import MinMaxScaler

2.2.读入数据

data = [[-1, 2], [-0.5, 6], [0, 10], [1, 18]]

2.3、实例归一化

方法1

scaler = MinMaxScaler() #实例化
scaler = scaler.fit(data) #fit，在这里本质是生成min(x)和max(x)
result = scaler.transform(data) #通过接口导出结果
result

array([[0.  , 0.  ],
       [0.25, 0.25],
       [0.5 , 0.5 ],
       [1.  , 1.  ]])

方法二（一步解决）

result_ = scaler.fit_transform(data

array([[0.  , 0.  ],
       [0.25, 0.25],
       [0.5 , 0.5 ],
       [1.  , 1.  ]])

2.4 逆转归一化结果

scaler.inverse_transform(result) #将归一化后的结果逆转

array([[-1. ,  2. ],
       [-0.5,  6. ],
       [ 0. , 10. ],
       [ 1. , 18. ]])

2.5 将数据归一化到[0,1]以外的范围中

在参数feature_range中添加范围

data = [[-1, 2], [-0.5, 6], [0, 10], [1, 18]]
scaler = MinMaxScaler(feature_range=[5,10]) #依然实例化
scaler

result = scaler.fit_transform(data) #fit_transform一步导出结果
result

array([[ 5.  ,  5.  ],
       [ 6.25,  6.25],
       [ 7.5 ,  7.5 ],
       [10.  , 10.  ]])

华为云开发者联盟

为开发者提供学习成长、分享交流、生态实践、资源工具等服务，帮助开发者快速成长。

更多推荐

解锁HDC 2024之旅：从购票到报名，全程攻略

华为云开发者联盟

从原始边列表到邻接矩阵Python实现图数据处理的完整指南

华为云开发者联盟

华为云云原生FinOps解决方案，释放云原生最大价值

华为云开发者联盟

所有评论(0)

查看更多评论

Anonymous&

@qq_47180202

已为社区贡献1条内容