【sklearn库】fit_transform()的含义
在学习数据准备的时候遇到一个问题让我想了很久:就是from sklearn.preprocessing import LabelEncoder里面的这个fit_transform到底是个什么意思?它输出的序列到底是什么?我翻了很多本站点的文章都没能解决我的问题,查的资料都说这个是将数据标准化了,那你倒是说啊,以什么为标准化,标准化的方法太多了。在想清楚以后我给出我的理解:我们直接看代码#我们先看看
·
在学习数据准备的时候遇到一个问题让我想了很久:就是
from sklearn.preprocessing import LabelEncoder里面的这个fit_transform到底是个什么意思?它输出的序列到底是什么?
我们直接看代码
#我们先看看fit是啥
from sklearn import preprocessing
le = preprocessing.LabelEncoder()
le.fit([1, 3, 3, 7, 3, 1])
le.classes_
'''
output;
array([1, 3, 7])
'''
#很容易发现它把我所给的序列进行了两个操作:第一个是把重复的去掉,第二个是升序
#我们再看看fit_transform输出啥
le.fit_transform([1, 3, 3, 7, 3, 1])
'''
output:
array([0, 1, 1, 2, 1, 0])
'''
#说实话我就是这里没看懂
#我在资料里查到一句话
#sklearn.preprocessing.LabelEncoder():标准化标签,将标签值统一转换成range(标签值个数-1)范围内
#然后再结合fit的输出就能想通了:
fit_transform就是将序列重新排列后再进行标准化,
这个重新排列可以把它理解为查重加升序,像下面的序列,经过重新排列后可以得到:array([1,3,7])
而这个新的序列的索引是 0:1, 1:3, 2:7,这个就是fit的功能
所以transform根据索引又产生了一个新的序列,于是便得到array([0, 1, 1, 2, 1, 0])
这个序列是这样来的
更多推荐
已为社区贡献2条内容
所有评论(0)