python数据去重（pandas）

python3数据去重（pandas）去重操作是我们处理数据的时候经常遇到的！接下来告诉大家，仅仅用几行代码就可以实现的去重操作这边会用到pandas库这是一个非常非常强大的库，这里面有着处理数据特别简单方便的方法；下来介绍到就是用于数据去重的drop_duplicate方法这个方法是对DataFrame格式的数据，去除特定列下面的重复行。返回DataFrame格式的数据。这个方法里...

Oliver、He

28304人浏览 · 2019-08-06 17:17:16

Oliver、He · 2019-08-06 17:17:16 发布

python3数据去重（pandas）
去重操作是我们处理数据的时候经常遇到的！
接下来告诉大家，仅仅用几行代码就可以实现的去重操作
这边会用到pandas库
这是一个非常非常强大的库，这里面有着处理数据特别简单方便的方法；
下来介绍到就是用于数据去重的drop_duplicate方法
这个方法是对DataFrame格式的数据，去除特定列下面的重复行。返回DataFrame格式的数据。

这个方法里面有三个可填参数：
DataFrame.drop_duplicates(subset=None, keep=‘first’, inplace=False)

subset : column label or sequence of labels, optional 用来指定特定的列，默认所有列
keep : {‘first’, ‘last’, False}, default ‘first’ 删除重复项并保留第一次出现的项
inplace : boolean, default False 是直接在原来数据上修改还是保留一个副本

例如：
1、整行去重。
DataFrame.drop_duplicates()
2、按照其中某一列去重
DataFrame.drop_duplicates(subset=‘列名’)
3、只要是重复的数据，我都删除（例如有三个数字：1，2，1；执行之后变成：2；重复的都删除了）
DataFrame.drop_duplicates(keep=False)

下面给上第3中情况的代码

import pandas as pd
csv=pd.read_csv('E:/aaa/03.csv',low_memory=False,error_bad_lines=False)#读取csv中的数据
df = pd.DataFrame(csv)
print(df.shape)#打印行数
f=df.drop_duplicates(keep=False)#去重
print(f.shape)#打印去重后的行数
f.to_csv('E:/aaa/distionct_03.csv',index=None)#写到一个新的文件