Pandas 找出并查看数据中的重复行

dup_row = data.duplicated(subset=['用户编号', '统计日期'])data.insert(0, 'is_dup', dup_row)data[data['is_dup'] == True]

TianCMCC

14226人浏览 · 2021-11-27 15:05:38

TianCMCC · 2021-11-27 15:05:38 发布

示例：

df = pd.DataFrame({
    '用户编号': ['小明', '小明', '小王', '小美', '小张', '小王'],
    '统计日期': ['11.12', '11.12', '11.12', '11.12', '11.13'， '11.13'],
    '消费金额': [4, 3, 5, 10, 2, 5]
})

在这里插入图片描述

可见用户 “小明”，在11.12当日产生的消费金额不一致，因此判断为异常数据，将其找出：

dup_row = df.duplicated(subset=['用户编号', '统计日期'], keep=False)
df.insert(0, 'is_dup', dup_row)
df[df['is_dup'] == True]

在这里插入图片描述

华为云开发者联盟

为开发者提供学习成长、分享交流、生态实践、资源工具等服务，帮助开发者快速成长。

更多推荐

解锁HDC 2024之旅：从购票到报名，全程攻略

华为云开发者联盟

从原始边列表到邻接矩阵Python实现图数据处理的完整指南

华为云开发者联盟

华为云云原生FinOps解决方案，释放云原生最大价值

华为云开发者联盟

所有评论(0)

查看更多评论

TianCMCC

@qq_36187610

已为社区贡献1条内容