python数据预处理_Python数据预处理
1.缺失值处理1.1缺失值查看在Python中直接调用info()方法就会返回每一列的缺失情况。 Python中缺失值一般用NaN表示,从用info()方法的结果来看,地区、销量跟销售额这三列是12个非null值,其他的都是13个非null值,说明这三列分别有一个缺失值。1.2 缺失值删除在Python中,我们利用的是dropna()方法,dropna()方法默认删除含有缺失值的行,也就是只要某一
1.缺失值处理
1.1缺失值查看
在Python中直接调用info()方法就会返回每一列的缺失情况。
Python中缺失值一般用NaN表示,从用info()方法的结果来看,地区、销量跟销售额这三列是12个非null值,其他的都是13个非null值,说明这三列分别有一个缺失值。
1.2 缺失值删除
在Python中,我们利用的是dropna()方法,dropna()方法默认删除含有缺失值的行,也就是只要某一行有缺失值就将这一行删除。
如果想删除空白行,只要给dropna()方法传入一个参数how="all"即可,这样就只会删除全为空值的行。
1.3 缺失值填充
我们利用fillna()方法对数据表中的所有缺失值进行填充,在fillna()中输入要填充的值即可。
在Python中,我们也可以按不同列填充,只要在fillna()方法的括号中指明列名即可。
1.4 重复值处理
在Python中,我们利用drop_duplicates()方法,该方法默认对所有值进行重复值判断,且默认保留第一个(行)值。
上面是针对所有字段进行的重复值判断,我们同样可以只针对某一列或某几列进行重复值删除的判断,只需在drop_duplicates()方法中指明要判断的列名即可。
还可以自定义删除重复项时保留哪个,默认保留第一个,也可以设置保留最后一个,或者全部不保留。通过传入参数keep进行设置,参数keep默认值是first,即保留第一个;也可以是last,保留最后一个;还可以是False,即把重复值全部删除。
更多推荐
所有评论(0)