数据处理的一般步骤

# import pandas as pd## #步骤一:提出问题# #步骤二:理解数据# # 1,导入数据库:主要函数有:pd.read_csv() pd.read_excel()# # 2,查看导入数据的基本情况:参数:dtypes,shape,values函数有:head() type()## # 步骤三:数据清洗(重点)# # 1,选择子集:若数据中项目较多,可以选择其中一些# # 2,列

Walk too poorly

8301人浏览 · 2021-07-27 00:44:34

Walk too poorly · 2021-07-27 00:44:34 发布

# import pandas as pd
#
# #步骤一:提出问题
# #步骤二:理解数据
# # 1,导入数据库:主要函数有:pd.read_csv() pd.read_excel()
# # 2,查看导入数据的基本情况:参数:dtypes,shape,values   函数有:head() type()
#
# # 步骤三:数据清洗(重点)
# # 1,选择子集:若数据中项目较多,可以选择其中一些
# # 2,列名重命名
# # 更改列名所用函数:a={'a':'b'} data.rename(columns=a,inplace=True)      为什么用集合呢? 可能是有针对的改,所以不是用[]
#
# 3,缺失数据处理
# (1),首先判断哪里有缺失值:矩阵式显示:data.isnull()  每一列显示:data.isnull().any()
#     判断有多少个缺失值:  data[data[['销售时间','社保卡号']].isnull().values == True]
# (2),删除:当缺失数据占总数据量的比例很小的时候，我们通常采用删除的处理方法。大概比例是____
#     合理值填充:在某些不适合删除的场合，我们有时候也会对缺失数据进行合理值填充，如平均值，中位数，相邻数据等等。
#              去重:drop_duplicates(keep:(first[保留第一个],last[保留最后一个],False[不保留])subset:(选择列) inplace)  默认为first,全部列,False
# (3)数据类型的转换:dateSer=pd.to_datetime(salesDf['销售时间'], format = '%Y-%m-%d', errors='coerce')(把object转换为日期类型)  split(''):以''为分割符
# # 4,数据排序
# #按销售时间排序
# df = df.sort_values(by='销售时间')
# #再次更新一下序号
# df = df.reset_index(drop = True)
# # 5,异常值处理
# salesDf.describe()  输出均值什么的
# # 步骤四:构建模型        自己想有哪些标准
# # 1,业务指标1:月均消费次数=总消费次数/月份数
# # 2.业务指标2:月均消费金额=总消费金额/月份数
# # .......
# # 步骤五:数据可视化