常用条件:

多条件、是否相等、字符串是否包含、是否为nan等。

import pandas as pd
import numpy as np
df =pd.read_excel("/Users/name/Desktop/file.xlsx")
df['label'] = np.nan
# df['label'] = None

# 1. 判断值
df.loc[df['A'] == 'a', 'label'] = '1'

# 判断是否赋值成功,在赋值前后执行
# df[df.loc[:, 'A'] == 'a'].head(20)

# 2. 判断是否包含、以及多个条件的并行判断
df.loc[(df.loc[:, 'A'].str.contains("a"))  & (df.loc[:, 'B'].str.contains("b")), 'label'] = '2'

# 3. 判断是不是null

df.loc[pd.isnull(df.loc[:, 'label']), 'label'] = '3'

# 请注意后面的判断条件(优先级低的判断,不要覆盖优先级高的判断)

# 标签结果的分布统计
df.groupby(['label']).size()

Logo

为开发者提供学习成长、分享交流、生态实践、资源工具等服务,帮助开发者快速成长。

更多推荐