数据处理的一般步骤
# import pandas as pd## #步骤一:提出问题# #步骤二:理解数据# # 1,导入数据库:主要函数有:pd.read_csv() pd.read_excel()# # 2,查看导入数据的基本情况:参数:dtypes,shape,values函数有:head() type()## # 步骤三:数据清洗(重点)# # 1,选择子集:若数据中项目较多,可以选择其中一些# # 2,列
·
# import pandas as pd # # #步骤一:提出问题 # #步骤二:理解数据 # # 1,导入数据库:主要函数有:pd.read_csv() pd.read_excel() # # 2,查看导入数据的基本情况:参数:dtypes,shape,values 函数有:head() type() # # # 步骤三:数据清洗(重点) # # 1,选择子集:若数据中项目较多,可以选择其中一些 # # 2,列名重命名 # # 更改列名所用函数:a={'a':'b'} data.rename(columns=a,inplace=True) 为什么用集合呢? 可能是有针对的改,所以不是用[] # # 3,缺失数据处理 # (1),首先判断哪里有缺失值:矩阵式显示:data.isnull() 每一列显示:data.isnull().any() # 判断有多少个缺失值: data[data[['销售时间','社保卡号']].isnull().values == True] # (2),删除:当缺失数据占总数据量的比例很小的时候,我们通常采用删除的处理方法。大概比例是____ # 合理值填充:在某些不适合删除的场合,我们有时候也会对缺失数据进行合理值填充,如平均值,中位数,相邻数据等等。 # 去重:drop_duplicates(keep:(first[保留第一个],last[保留最后一个],False[不保留])subset:(选择列) inplace) 默认为first,全部列,False # (3)数据类型的转换:dateSer=pd.to_datetime(salesDf['销售时间'], format = '%Y-%m-%d', errors='coerce')(把object转换为日期类型) split(''):以''为分割符 # # 4,数据排序 # #按销售时间排序 # df = df.sort_values(by='销售时间') # #再次更新一下序号 # df = df.reset_index(drop = True) # # 5,异常值处理 # salesDf.describe() 输出均值什么的 # # 步骤四:构建模型 自己想有哪些标准 # # 1,业务指标1:月均消费次数=总消费次数/月份数 # # 2.业务指标2:月均消费金额=总消费金额/月份数 # # ....... # # 步骤五:数据可视化
更多推荐
已为社区贡献1条内容
所有评论(0)