【sklearn库】fit_transform()的含义

在学习数据准备的时候遇到一个问题让我想了很久：就是from sklearn.preprocessing import LabelEncoder里面的这个fit_transform到底是个什么意思？它输出的序列到底是什么？我翻了很多本站点的文章都没能解决我的问题，查的资料都说这个是将数据标准化了，那你倒是说啊，以什么为标准化，标准化的方法太多了。在想清楚以后我给出我的理解：我们直接看代码#我们先看看

皮卡丘黄了吧唧丿

11176人浏览 · 2021-04-05 22:27:15

皮卡丘黄了吧唧丿 · 2021-04-05 22:27:15 发布

在学习数据准备的时候遇到一个问题让我想了很久：就是
from sklearn.preprocessing import LabelEncoder里面的这个fit_transform到底是个什么意思？它输出的序列到底是什么？

我们直接看代码

#我们先看看fit是啥
from sklearn import preprocessing
le = preprocessing.LabelEncoder()
le.fit([1, 3, 3, 7, 3, 1])
le.classes_

'''
output；
array([1, 3, 7])
'''
#很容易发现它把我所给的序列进行了两个操作：第一个是把重复的去掉，第二个是升序
#我们再看看fit_transform输出啥
le.fit_transform([1, 3, 3, 7, 3, 1])
'''
output:
array([0, 1, 1, 2, 1, 0])
'''
#说实话我就是这里没看懂
#我在资料里查到一句话
#sklearn.preprocessing.LabelEncoder()：标准化标签，将标签值统一转换成range(标签值个数-1)范围内
#然后再结合fit的输出就能想通了：

fit_transform就是将序列重新排列后再进行标准化，
这个重新排列可以把它理解为查重加升序，像下面的序列，经过重新排列后可以得到：array([1,3,7])
而这个新的序列的索引是 0:1, 1:3, 2:7，这个就是fit的功能
所以transform根据索引又产生了一个新的序列，于是便得到array([0, 1, 1, 2, 1, 0])
这个序列是这样来的