【pandas】查找重复数据 df.duplicated() 、删除重复数据 df.drop_duplicates()

扒拉重复数据，删除重复数据

Enzo 想砸电脑

6069人浏览 · 2022-07-14 23:01:23

Enzo 想砸电脑 · 2022-07-14 23:01:23 发布

数据准备

import pandas as pd

train = pd.read_csv(r"../input/titanic/train.csv")
train.head()

在这里插入图片描述
查看是否有有重复数据

1、train.duplicated() 用布尔值说明数据是否重复

在这里插入图片描述

2、train[train.duplicated()] 筛选并展示重复数据
因为没有，所以展示为空
在这里插入图片描述

3、train.duplicated().sum() 输出重复数据的数量
这里为0

4、如果有重复数据，使用函数 df.drop_duplicates() 删除重复数据

我太懒了，我不想造重复数据
等之后碰到了有重复数据的数据集，再来返工一下吧 😁

华为开发者空间

华为开发者空间，是为全球开发者打造的专属开发空间，汇聚了华为优质开发资源及工具，致力于让每一位开发者拥有一台云主机，基于华为根生态开发、创新。

更多推荐

cover

Hermes进阶医疗行业落地：LLM Wiki + Obsidian图谱建设脂肪性肝病智能知识网络

华为开发者空间

cover

【GaussDB】GaussDB逻辑操作符入门指南

华为开发者空间

cover

【GaussDB】GaussDB等保测评命令大集合

华为开发者空间

所有评论(0)

查看更多评论

Enzo 想砸电脑

@weixin_37804469

已为社区贡献2条内容