python中Pandas之DataFrame索引、选取数据
python中Pandas之DataFrame索引、选取数据
目录
总结一下 DataFrame索引问题
1.索引是什么
1.1 认识索引
先创建一个简单的DataFrame。
myList = [['a', 10, 1.1],
['b', 20, 2.2],
['c', 30, 3.3],
['d', 40, 4.4]]
df1 = pd.DataFrame(data = myList)
print(df1)
--------------------------------
[out]:
0 1 2
0 a 10 1.1
1 b 20 2.2
2 c 30 3.3
3 d 40 4.4
DataFrame中有两种索引:
- 行索引(index):对应最左边那一竖列
- 列索引(columns):对应最上面那一横行
两种索引默认均为从0开始的自增整数。
# 输出行索引
print(df1.index)
[out]:
RangeIndex(start=0, stop=4, step=1)
---------------------------------------
# 输出列索引
print(df1.columns)
[out]:
RangeIndex(start=0, stop=3, step=1)
---------------------------------------
# 输出所有的值
print(df1.values)
[out]:
array([['a', 10, 1.1],
['b', 20, 2.2],
['c', 30, 3.3],
['d', 40, 4.4]], dtype=object)
1.2 自定义索引
可以使用 index 这个参数指定行索引,columns 这个参数指定列索引。
df2 = pd.DataFrame(myList,
index = ['one', 'two', 'three', 'four'],
columns = ['char', 'int', 'float'])
print(df2)
-----------------------------------------------------------
[out]:
char int float
one a 10 1.1
two b 20 2.2
three c 30 3.3
four d 40 4.4
输出此时的行索引和列索引:
# 输出行索引
print(df2.index)
[out]:
Index(['one', 'two', 'three', 'four'], dtype='object')
--------------------------------------------------------
# 输出列索引
print(df2.columns)
[out]:
Index(['char', 'int', 'float'], dtype='object')
2. 索引的简单使用
2.1 列索引
- 选择一列:
print(df2['char'])
print(df2.char)
# 两种方式输出一样
[out]:
one a
two b
three c
four d
Name: char, dtype: object
注意此时方括号里面只传入一个字符串 ’char’,这样选出来的一列,结果的类型为 Series
type(df2['char'])
[out]: pandas.core.series.Series
- 选择多列:
print(df2[['char', 'int']])
[out]:
char int
one a 10
two b 20
three c 30
four d 40
注意此时方括号里面传入一个列表 [‘char’, ‘int’],选出的结果类型为 DataFrame。
如果只想选出来一列,却想返回 DataFrame 类型怎么办?
print(df2[['char']])
[out]:
char
one a
two b
three c
four d
---------------------------------------
type(df2[['char']])
[out]:pandas.core.frame.DataFrame
注意直接使用 df2[0] 取某一列会报错,除非columns是由下标索引组成的,比如df1那个样子,df1[0] 就不会报错。
print(df1[0])
[out]:
0 a
1 b
2 c
3 d
Name: 0, dtype: object
-----------------------
print(df2[0])
[out]:
KeyError: 0
2.1.2 使用loc和iloc
df = dat_df.iloc[:, [0, 2, 3, 4]] #选择所有行,并选择第0,2,3,4列,列名可以为其它字符串
2.2 行索引
2.2.1 使用[ : ]
区别于选取列,此种方式 [ ] 中不再单独的传入一个字符串,而是需要使用冒号切片。
- 选取行标签从 ’two’ 到 ’three’ 的多行数据
print(df2['two': 'three'])
[out]:
char int float
two b 20 2.2
three c 30 3.3
# dataframe格式
# 也可以直接用数字
- 选取行标签为 ’two’ 这一行数据
# 此时返回的类型为DataFrame
print(df2['two': 'two'])
[out]:
char int float
two b 20 2.2
在 [ ] 中不仅可以传入行标签,还可以传入行的编号。
- 选取从第1行到第3行的数据(编号从0开始)
print(df2[1:4])
[out]:
char int float
two b 20 2.2
three c 30 3.3
four d 40 4.4
# dataframe格式
可以看到选取的数据是不包含方括号最右侧的编号所对应的数据的。
- 选取第1行的数据
print(df2[1:2])
[out]:
char int float
two b 20 2.2
2.2.2 使用.loc()和.iloc()
区别就是 .loc() 是根据行索引和列索引的值来选取数据,而 .iloc() 是根据从 0 开始的下标位置来进行索引的。
- 选取行:
1. 使用.loc()
print(df2.loc['one'])
[out]:
char a
int 10
float 1.1
Name: one, dtype: object
-------------------------------------------
print(df2.loc[['one', 'three']])
[out]:
char int float
one a 10 1.1
three c 30 3.3
-------------------------------------------
df2.loc['one': 'three']
Out[14]:
char int float
one a 10 1.1
two b 20 2.2
three c 30 3.3
2. 使用.iloc()
print(df2.iloc[0])
[out]:
char a
int 10
float 1.1
Name: one, dtype: object
-------------------------------------------
print(df2.iloc[[0, 2]])
[out]:
char int float
one a 10 1.1
three c 30 3.3
-------------------------------------------
df2.iloc[1: 3]
Out[18]:
char int float
two b 20 2.2
three c 30 3.3
3. 根据列条件,选取dataframe数据框中的数据
# 选取等于某些值的行记录 用 ==
df.loc[df['column_name'] == some_value]
# 选取某列是否是某一类型的数值 用 isin
df.loc[df['column_name'].isin(some_values)]
# 多种条件的选取 用 &
df.loc[(df['column'] == some_value) & df['other_column'].isin(some_values)]
# 选取不等于某些值的行记录 用 !=
df.loc[df['column_name'] != some_value]
# isin返回一系列的数值,如果要选择不符合这个条件的数值使用~
df.loc[~df['column_name'].isin(some_values)]
4. 根据列条件,获取行索引号并转成列表
在dataframe中根据一定的条件,得到符合要求的某些行元素所在的位置
import pandas as pd
df = pd.DataFrame({'BoolCol': [1, 2, 3, 3, 4],'attr': [22, 33, 22, 44, 66]},
index=[10,20,30,40,50])
print(df)
a = df[(df.BoolCol==3)&(df.attr==22)].index.tolist()
print(a)
输出:
BoolCol attr
10 1 22
20 2 33
30 3 22
40 3 44
50 4 66
[30]
注意:
df[(df.BoolCol==3)&(df.attr==22)].index 返回的是 index 对象列表,需转换为普通列表格式时用 tolist() 方法
5. 索引操作集锦
a = data_1H2['num'].value_counts(sort=True, ascending=True).sort_index(ascending=False)
6. 时间筛选
df的格式如下所述
df.head()
Out[3]:
u1 v1 w1
TimeStamp
2022-02-15 14:50:01 -2.91 -3.95 0.37
2022-02-15 14:50:02 -2.76 -4.33 0.35
2022-02-15 14:50:03 -2.73 -4.36 0.36
2022-02-15 14:50:04 -3.02 -4.25 0.49
如果 df
的索引是时间戳,并且您想要提取特定日期的数据,可以使用 .loc
方法直接根据日期过滤。以下是从 df
中提取 2022 年 8 月 25 日的数据的方法:
# 确保 df 的索引为 DatetimeIndex
df.index = pd.to_datetime(df.index)
# 提取目标日期的数据
target_date = '2022-08-25'
filtered_df = df.loc[target_date]
print(filtered_df)
请注意:
- 如果
df
是从 CSV 文件读取的,可以使用pd.read_csv('file.csv', index_col=0, parse_dates=True)
来确保索引被正确解析为日期时间格式。 - 如果没有数据或日期超出范围,
.loc
方法将会报错。
7. median、max筛选
id1这一列是包含多个重复值,挑选每个id1的风速列(ws_Avg)的median、max 。
data = df_all2.copy()
columns_of_interest = ['id1', 'terrain', 'alp', 'TI', 'shear', 'air_density', 'extreme_wind', 'air_density_year', 'ws_Avg']
data = data[columns_of_interest]
# ========================= 全部风速 =================================
data1 = data.copy() # 用于全部数据的计算
# ========================= 筛选最大风速 =================================
idx = data.groupby('id1')['ws_Avg'].idxmax()
data_max = data.loc[idx].reset_index(drop=True)
# ========================= 筛选风速50%分位数 =================================
data_part2 = data.copy()
medians = data_part2.groupby('id1')['ws_Avg'].transform('median') # median列,值全为中位数(重复)
data_part2['median_diff'] = (data_part2['ws_Avg'] - medians).abs() # 找出每个id1中ws_Avg最接近中位数的行
idx_median = data_part2.groupby('id1')['median_diff'].idxmin()
data_part3 = data_part2.loc[idx_median] # 使用找到的索引选择行
data_part3 = data_part3.drop(columns=['median_diff']) # 如果不再需要median_diff列,可以将其删除
data_median = data_part3.reset_index()
8. 某个值出现的行(索引)
如何查看 u1 列最大值 99 出现的位置
>>> dat_df.describe()
Out[1]:
u1 v1 w1
count 1.794770e+07 1.794770e+07 1.794770e+07
mean -1.429024e+00 -9.642017e-01 -4.385086e-02
std 5.217101e+00 3.990546e+00 6.206890e-01
min -2.006000e+01 -2.192000e+01 -1.421000e+01
25% -4.660000e+00 -2.420000e+00 -3.300000e-01
50% -1.500000e+00 -2.000000e-02 -7.000000e-02
75% 1.660000e+00 1.500000e+00 2.000000e-01
max 9.900000e+01 3.090000e+02 3.090000e+02
要查看 u1
列最大值 99
出现的位置,您可以使用 Pandas 库来实现。以下是一个示例代码,展示如何找到 u1
列中最大值 99
的所有索引位置:
import pandas as pd
# 假设 dat_df 是您的 DataFrame
# 找到 u1 列中值为 99 的所有位置
positions = dat_df.index[dat_df['u1'] == 99].tolist()
print("u1 列最大值 99 出现的位置:", positions)
在这个代码中,我们使用条件筛选 dat_df['u1'] == 99
来找到所有满足条件的行索引,然后使用 tolist()
方法将其转换为列表形式。最终,将得到一个包含所有位置的列表。
输出:
u1 列最大值 99 出现的位置:
[Timestamp('2021-05-02 13:21:35'), Timestamp('2021-05-02 13:23:26'), Timestamp('2021-05-02 13:24:25'), Timestamp('2021-05-02 13:25:39'), Timestamp('2021-05-02 13:34:31'), Timestamp('2021-05-02 13:36:28'), Timestamp('2021-05-02 13:37:45'), Timestamp('2021-05-02 13:38:11'), Timestamp('2021-05-02 13:38:56'), Timestamp('2021-05-02 13:39:41'), Timestamp('2021-05-02 13:40:19'), Timestamp('2021-05-03 12:31:34')]
9. 提取具体某个值
factor_meter = df_factor_meter.at[i, 'factor_meter']
参考链接
[1] Pandas中DataFrame索引、选取数据 2020.3
更多推荐
所有评论(0)