数据处理的一般步骤
# import pandas as pd## #步骤一:提出问题# #步骤二:理解数据# # 1,导入数据库:主要函数有:pd.read_csv() pd.read_excel()# # 2,查看导入数据的基本情况:参数:dtypes,shape,values函数有:head() type()## # 步骤三:数据清洗(重点)# # 1,选择子集:若数据中项目较多,可以选择其中一些# # 2,列
·
# import pandas as pd
#
# #步骤一:提出问题
# #步骤二:理解数据
# # 1,导入数据库:主要函数有:pd.read_csv() pd.read_excel()
# # 2,查看导入数据的基本情况:参数:dtypes,shape,values 函数有:head() type()
#
# # 步骤三:数据清洗(重点)
# # 1,选择子集:若数据中项目较多,可以选择其中一些
# # 2,列名重命名
# # 更改列名所用函数:a={'a':'b'} data.rename(columns=a,inplace=True) 为什么用集合呢? 可能是有针对的改,所以不是用[]
#
# 3,缺失数据处理
# (1),首先判断哪里有缺失值:矩阵式显示:data.isnull() 每一列显示:data.isnull().any()
# 判断有多少个缺失值: data[data[['销售时间','社保卡号']].isnull().values == True]
# (2),删除:当缺失数据占总数据量的比例很小的时候,我们通常采用删除的处理方法。大概比例是____
# 合理值填充:在某些不适合删除的场合,我们有时候也会对缺失数据进行合理值填充,如平均值,中位数,相邻数据等等。
# 去重:drop_duplicates(keep:(first[保留第一个],last[保留最后一个],False[不保留])subset:(选择列) inplace) 默认为first,全部列,False
# (3)数据类型的转换:dateSer=pd.to_datetime(salesDf['销售时间'], format = '%Y-%m-%d', errors='coerce')(把object转换为日期类型) split(''):以''为分割符
# # 4,数据排序
# #按销售时间排序
# df = df.sort_values(by='销售时间')
# #再次更新一下序号
# df = df.reset_index(drop = True)
# # 5,异常值处理
# salesDf.describe() 输出均值什么的
# # 步骤四:构建模型 自己想有哪些标准
# # 1,业务指标1:月均消费次数=总消费次数/月份数
# # 2.业务指标2:月均消费金额=总消费金额/月份数
# # .......
# # 步骤五:数据可视化
更多推荐
活动日历
查看更多
直播时间 2025-02-26 16:00:00


直播时间 2025-01-08 16:30:00


直播时间 2024-12-11 16:30:00


直播时间 2024-11-27 16:30:00


直播时间 2024-11-21 16:30:00


所有评论(0)