1.StandardScaler()函数,其官方解释如下:

中文翻译为:

通过删除平均值并缩放到单位方差来标准化特征。

样本x的标准分数计算如下:

z=(x-u)/s

其中,u是训练样本的平均值,如果_mean=False,则为零;如果_std=False,则s是训练样本的标准偏差或一。

通过计算训练集中样本的相关统计信息,对每个特征分别进行定心和缩放。然后存储平均值和标准偏差,以便使用transform在以后的数据上使用。

数据集的标准化是许多机器学习估计器的共同要求:如果单个特征或多或少不像标准正态分布数据(例如,均值和单位方差为0的高斯分布),那么这些估计器可能表现不好。

例如,学习算法的目标函数中使用的许多元素(如支持向量机的RBF核或线性模型的L1和L2正则化器)假设所有特征都以0为中心,并且具有相同顺序的方差。如果一个特征的方差比其他特征的方差大几个数量级,它可能会支配目标函数,使估计器无法像预期的那样正确地从其他特征中学习。

此定标器还可以通过传递_mean=False来应用于稀疏CSR或CSC矩阵,以避免破坏数据的稀疏结构。

copy:如果为False,请尝试避免复制,而改为进行就地缩放。

with_mean:如果为True,则在缩放之前将数据中心化。这在稀疏矩阵上不起作用(并且会引发异常),因为将它们居中需要构建一个密集矩阵,在常见用例中,该矩阵可能太大而无法放入内存。

with_std:如果为True,则将数据缩放为单位方差(或等效的单位标准偏差)。

 2.fit_transform()方法

先计算出数据的均值和方差,并根据此将数据标准化并且可以自动对文档进行分词与停用词的计算,最后输出每个单词的次品,输出结果为一个稀疏矩阵,如果要查看矩阵的具体内容,可以使用toarray()方法。

Logo

为开发者提供学习成长、分享交流、生态实践、资源工具等服务,帮助开发者快速成长。

更多推荐