在学习数据准备的时候遇到一个问题让我想了很久:就是
from sklearn.preprocessing import LabelEncoder里面的这个fit_transform到底是个什么意思?它输出的序列到底是什么?

我们直接看代码

#我们先看看fit是啥
from sklearn import preprocessing
le = preprocessing.LabelEncoder()
le.fit([1, 3, 3, 7, 3, 1])
le.classes_

'''
output;
array([1, 3, 7])
'''
#很容易发现它把我所给的序列进行了两个操作:第一个是把重复的去掉,第二个是升序
#我们再看看fit_transform输出啥
le.fit_transform([1, 3, 3, 7, 3, 1])
'''
output:
array([0, 1, 1, 2, 1, 0])
'''
#说实话我就是这里没看懂
#我在资料里查到一句话
#sklearn.preprocessing.LabelEncoder():标准化标签,将标签值统一转换成range(标签值个数-1)范围内
#然后再结合fit的输出就能想通了:

fit_transform就是将序列重新排列后再进行标准化,
这个重新排列可以把它理解为查重加升序,像下面的序列,经过重新排列后可以得到:array([1,3,7])
而这个新的序列的索引是 0:1, 1:3, 2:7,这个就是fit的功能
所以transform根据索引又产生了一个新的序列,于是便得到array([0, 1, 1, 2, 1, 0])

这个序列是这样来的

Logo

为开发者提供学习成长、分享交流、生态实践、资源工具等服务,帮助开发者快速成长。

更多推荐