Python pandas DataFrame排序与去重操作

文章目录前言一、Dataframe排序1. 索引的排序2. 值的排序二、Dataframe去重前言本篇文章主要介绍了Python数据分析Pandas Dataframe排序与去重操作：1、DataFrame 的排序分为两种，一种是对索引进行排序，另一种是对值进行排序；2、DataFrame 的去重主要针对单列或多列中的完全重复的项进行处理一、Dataframe排序1. 索引的排序DataFrame

琲世

12967人浏览 · 2022-07-28 09:20:43

琲世 · 2022-07-28 09:20:43 发布

文章目录

前言
一、Dataframe排序
- 1. 索引的排序
- 2. 值的排序
二、Dataframe去重

前言

本篇文章主要介绍了Python数据分析Pandas Dataframe排序与去重操作：
1、DataFrame 的排序分为两种，一种是对索引进行排序，另一种是对值进行排序；
2、DataFrame 的去重主要针对单列或多列中的完全重复的项进行处理

一、Dataframe排序

1. 索引的排序

DataFrame 提供了sort_index()方法来进行索引的排序，主要考虑以下几个可选输入项：

axis参数：指定对行索引排序还是对列索引排序，默认为0，表示对行索引排序，设置为1表示对列索引
ascending参数：指定升序还是降序，默认为True表示升序，设置为False表示降序
inplace参数：表示是否返回副本，默认为False表示返回副本，设置为True表示在原数据上修改

使用方法：

	df = pd.DataFrame(data)
	df.sort_index(axis=0, ascending=False, inplace=True)

2. 值的排序

DataFrame 提供了sort_values()方法来进行值的排序，相比sort_index()方法，它多了一个by参数，其他参数与sort_index()方法：

by参数：接收字符串或者列表，来指定要排序的行或者列名
ascending参数：若by参数指示的为列表，此处也需要按照列表填写排序方向
ignore_index参数：指示是否重新生成行索引，默认为False表示不生成，此时会导致index乱序，设置为True表示重新按照0，1 ，2…生成index

使用方法：

	df = pd.DataFrame(data)
	df.sort_values(by=['age', 'gender'], ascending=[False, True], inplace=True, ignore_index=True)

二、Dataframe去重

Dataframe的去重使用的方法为drop_duplicates()，此方法可以快速的实现对全部数据、部分数据的去重操作。
主要包含以下几个参数：

subset参数：设置识别重复项的列名或列名序列，对某些列来识别重复项，默认情况下使用所有列，即识别完全相同的内容，若设置，则仅识别对应的列；
keep参数：可选值有first，last，False，默认为first，确定要保留哪些重复项
1. first：删除除第一次出现的重复项，即保留第一次出现的重复项
2. last：保留最后一次出现的重复项
3. False：删除所有重复项
inplace参数：表示是否返回副本，默认为False表示返回副本，设置为True表示在原数据上修改
ignore_index参数：指示是否重新生成行索引，默认为False表示不生成，此时会导致index乱序，设置为True表示重新按照0，1 ，2…生成index

使用方法：

	df = pd.DataFrame(data)
	df.drop_duplicates(subset=None, keep=‘first’, inplace=False, ignore_index=False)

华为云开发者联盟

为开发者提供学习成长、分享交流、生态实践、资源工具等服务，帮助开发者快速成长。

更多推荐

解锁HDC 2024之旅：从购票到报名，全程攻略

华为云开发者联盟

从原始边列表到邻接矩阵Python实现图数据处理的完整指南

华为云开发者联盟

华为云云原生FinOps解决方案，释放云原生最大价值

华为云开发者联盟

所有评论(0)

查看更多评论

琲世

@weixin_43115411

已为社区贡献5条内容