1.缺失值处理

1.1缺失值查看

在Python中直接调用info()方法就会返回每一列的缺失情况。

0f33eb2068ff8c62c8d5de64903d1790.png

003c69aff548e5adb0d8d193b043635e.png

Python中缺失值一般用NaN表示,从用info()方法的结果来看,地区、销量跟销售额这三列是12个非null值,其他的都是13个非null值,说明这三列分别有一个缺失值。

1.2 缺失值删除

在Python中,我们利用的是dropna()方法,dropna()方法默认删除含有缺失值的行,也就是只要某一行有缺失值就将这一行删除。

671882dd40cd09f11a8ef4dbd6f86b27.png

275e1b5baea12696a5f233c25c762253.png

如果想删除空白行,只要给dropna()方法传入一个参数how="all"即可,这样就只会删除全为空值的行。

1.3 缺失值填充

我们利用fillna()方法对数据表中的所有缺失值进行填充,在fillna()中输入要填充的值即可。

3202ef4a4a5c0675290d538cc2e335b6.png

在Python中,我们也可以按不同列填充,只要在fillna()方法的括号中指明列名即可。

daa9e8736042e5279e933eb7f8d20340.png

1.4 重复值处理

在Python中,我们利用drop_duplicates()方法,该方法默认对所有值进行重复值判断,且默认保留第一个(行)值。

50717c78a43e7513f0363bd57c917728.png

c862e0fcf1d675c4ccbedf97101d7f1b.png

上面是针对所有字段进行的重复值判断,我们同样可以只针对某一列或某几列进行重复值删除的判断,只需在drop_duplicates()方法中指明要判断的列名即可。

1e713bf05a3efd29e8ea1891e55ba13f.png

还可以自定义删除重复项时保留哪个,默认保留第一个,也可以设置保留最后一个,或者全部不保留。通过传入参数keep进行设置,参数keep默认值是first,即保留第一个;也可以是last,保留最后一个;还可以是False,即把重复值全部删除。

1bfafb64513381e9a13aa27ea2f55869.png

Logo

华为开发者空间,是为全球开发者打造的专属开发空间,汇聚了华为优质开发资源及工具,致力于让每一位开发者拥有一台云主机,基于华为根生态开发、创新。

更多推荐