OneHotEncoder简单用法

sklearn.preprocessing.OneHotEncoderclass sklearn.preprocessing.OneHotEncoder(*, categories='auto', drop=None, sparse=True, dtype=<class 'numpy.float64'>, handle_unknown='error')handle_unknown{‘e

长命百岁️

9762人浏览 · 2022-04-02 23:20:32

长命百岁️ · 2022-04-02 23:20:32 发布

文章目录

1.sklearn.preprocessing.OneHotEncoder
2.例子

1.sklearn.preprocessing.OneHotEncoder

class sklearn.preprocessing.OneHotEncoder(*, categories='auto', drop=None, sparse=True, dtype=<class 'numpy.float64'>, handle_unknown='error')

将特征类别编码成 one-hot 数值数组

这个转换器的输入应当是数值型数组或字符串数组（二维的），表示分类（离散）特征所取的值。这些特征被使用 one-hot 策略编码。这将为每个类别创建二进制列。每一列认为是一个 feature。默认情况下，encoder 根据每个特征中的唯一值生成类别。你也可以手动指定类别 categories。针对每个 feature 的二进制列，只有一个位置为1，其余位置都是 0。

我认为，下面的参数和属性是常用的，其余参数没有详细和属性没有详细介绍

handle_unknown	{‘error’, ‘ignore’}, default=’error’ 在转换过程中遇到未知分类特征时，是引发错误还是忽略（默认为引发）。当此参数设置为“ignore”并且在转换过程中遇到未知类别时，这一特征的 `one-hot` 编码列将全置为 0。在逆变换中，未知类别将表示为 `None`
参数	说明

属性	说明
categories_	list of arrays 拟合期间确定的每个特征的类别（按X中特征的顺序，并与转换的输出相对应）。这包括下拉列表中指定的类别（如果有）。

使用前需要先导入

from sklearn.preprocessing import OneHotEncoder

2.例子

2.1.数值型整数

整数
```
encoder = OneHotEncoder()
encoder.fit([
    [0, 2, 1, 12],
    [2, 3, 5, 3],
    [1, 3, 2, 12],
    [1, 2, 4, 3]
])
encoded_vector = encoder.transform([[2, 3, 5, 3]]).toarray()
print("\n Encoded vector =", encoded_vector)
>> Encoded vector = [[0. 0. 1. 0. 1. 0. 0. 0. 1. 1. 0.]]
```
- 默认情况下，将每一列认为是一个 feature，一列中的每个不同的值，都认为是一个 category
- 第一列中有[0, 1, 2]，三种值，因为需要三位数，我们将第一列编码为
  - 0：[1, 0, 0]
  - 1：[0, 1, 0]
  - 2：[0, 0, 1]
- 第三列中有 [1, 2, 4, 5] 四种值，因此需要四位数，我们将第三列编码为
  - 1：[1, 0, 0, 0]
  - 2：[0, 1, 0, 0]
  - 4：[0, 0, 1, 0]
  - 5：[0, 0, 0, 1]
同时，我们可以查看 encoder 的属性 categories:代表拟合期间确定的每个feature的categories
```
print(encoder.categories_)
[array([0, 1, 2]), array([2, 3]), array([1, 2, 4, 5]), array([ 3, 12])]>>
```
- 根据 categories_ 的输出，和上面的例子可以看到，每个 feature 的 category 是从小到大排列，并进行编码的。每个 feature 中的数在 categories_ 中的位置就是该数编码后，1的位置。

小数：同上面相同，这里证明，也可以针对小数进行编码

encoder = OneHotEncoder()
encoder.fit([
    [0, 2.1, 1, 12],
    [1, 3.2, 5, 3],
    [2, 3.3, 2, 12],
    [1, 2.1, 4, 3]
])
encoded_vector = encoder.transform([[2, 3.2, 5, 3]]).toarray()
print("\n Encoded vector =", encoded_vector)
>>  Encoded vector = [[0. 0. 1. 0. 1. 0. 0. 0. 0. 1. 1. 0.]]

2.2.字符串型数组

encoder = OneHotEncoder()
encoder.fit([['体育', '军事'],
             ['计科','开心'],
             ['娱乐', '军事']])
encoded_vector = encoder.transform([['计科', '开心']]).toarray()
print("\n Encoded vector =", encoded_vector)
print(encoder.categories_)
>>Encoded vector = [[0. 0. 1. 0. 1.]]
>>[array(['体育', '娱乐', '计科'], dtype=object), array(['军事', '开心'], dtype=object)]

可以看到，字符串型与数值型类似，编码方式也相同

2.3.handle_unknown

默认情况下，handle_unknow = error，当遇到 transform时遇到fit中没有出现过的特征类别时，会直接报错

handle_unknown = ignore

encoder = OneHotEncoder(handle_unknown='ignore')
encoder.fit([['体育', '军事'],
             ['计科','开心'],
             ['娱乐', '军事']])
encoded_vector = encoder.transform([['计科', '难过']]).toarray()
print("\n Encoded vector =", encoded_vector)
print(encoder.categories_)
>>Encoded vector = [[0. 0. 1. 0. 0.]]
>>[array(['体育', '娱乐', '计科'], dtype=object), array(['军事', '开心'], dtype=object)]

可以看到，transform 时遇到了 fit 第二列中没有出现过的 难过，因此，将第二列编码的位置都置为 0。

2.4.反向transform

通过编码，来解码出 feature 对应的类别

encoder = OneHotEncoder(handle_unknown='ignore')
encoder.fit([['体育', '军事'],
             ['计科','开心'],
             ['娱乐', '军事']])
encoded_vector = encoder.transform([['计科', '难过']]).toarray()
print(encoder.inverse_transform([[0, 0, 1, 0, 0]]))
>>[['计科' None]]

可以看到，在handle_unknown='ignore'时，将没见过的编码解码成了 None，默认handle_unknown下，直接报错

encoder = OneHotEncoder(handle_unknown='ignore')
encoder.fit([['体育', '军事'],
             ['计科','开心'],
             ['娱乐', '军事']])
encoded_vector = encoder.transform([['计科', '开心']]).toarray()
print(encoder.inverse_transform([[0, 0, 1, 0, 1]]))
>>[['计科' '开心']]