大作业要求

评分标准

一、评分规范基本要求
1、按时上交纸质文档和电子文档… 10分
2、数据分析方法及分析步骤…20分
3、代码…50分
3.1 算法描述正确(10分)
3.2 算法分析(20分)
3.3 代码截图(20分)
4、个人总结…20分
4.1 对数据分析的理解(10分)
4.2 学习数据分析课程的体会(10分)

考核目标

1、掌握Pandas的读写操作
2、正确使用预处理技术过滤数据
3、熟悉Matplotlib库绘制各种图表
4、会基于数据进行独立分析

数据分析基本步骤

1、明确任务目的
2、明确数据来源及数据收集
3、数据处理/清洗
4、数据分析
5、数据展示

实际操作

一、掌握Pandas的读写操作

  • 直接讲需要分析的数据写入程序中,会显得代码臃肿,而且可用率很低 。
  • 常用的方法是讲需要分析的数据存储到本地中,之后再将存储数据进行读写
  • 针对不同的存储文件 ,Pandas读取数据不同的:

读写数据操作:

  • csv文件是一种纯文本文件,可以使用任何文本编辑器进行编辑
  • 它支持追加模式,节省 内存开销。因为c s v 文件具有诸多的优点,所以在很多时候会将数据保存到C S V 文件中。
  • 将DataFrame对象中的数据写入到C S V 文件中,具体代码如下。
    在这里插入图片描述

读取文本文件

  • 接下来,使用read_csv0 函数将存储在D盘 目 录 下 “itcast.csv” 文件的内容读取出来,示 例代码如下
  • 在这里插入图片描述

正确使用预处理技术过滤数据

  • 前期采集到的数据,或多或少都存在一些瑕疵和不足,比如数据缺失、极端值、数据格式 不统一等问题。
  • 因此,在分析数据之前需要对数据进行预处理, 包括数据的清洗、合并、重塑 与转换。
  • Pandas中专门提供了用于数据预处理的很多函数与方法,用于替换异常数据、合并数据、 重塑数据等

数据清洗:

  • 数据清洗是一项复杂且烦琐的工作,同时也是整个数据分析过程中最为重要的环节。
  • 数据 清洗的目的在于提高数据质量,将脏数据(这里指的是对数据分析没有实际意义、格式非法、 不在指定范围内的数据)清洗干净。
  • 使原数据具有完整性、唯一性、权威性、合法性、一致性 等特点

空值缺失值处理

  • 空值一般表示数据未知、不适用或将在以后添加数据。
  • 缺失值是指数据集中某个或某些属 性的值是不完整的,产生的原因主要有人为原因和机械原因两种,
  • 其中机械原因是由于机器故 障造成数据未能收集或存储失败,
  • 人为原因是由主观失误或有意隐瞒造成的数据缺失。
  • 示例:上述函数中只有一个参数o b j,表示检查空值的对象。一旦发现数据中存在NaN或 None, 则就将这个位置标记为T rue,否则就标记为Falseo
    在这里插入图片描述

填充空值/缺失值

填充缺失值和空值的方式有Pandas中 的fillnaO方法可以实现填充空值或缺失值,其语法格式如下:

在这里插入图片描述

熟悉Matplotlib库绘制各种图表

  • Matplotlib是一个Python 2 D 绘图库
  • 作图风格接近Matlab,它已经成为Python中公认的数 据可视化工具
  • 适用于各种平台上(包括Python脚本、Python和 IPython shell、Jupyter Notebook 等 )
  • 能够以各种硬拷贝格式和交互式环境生成出版品质图形
    Matplotlib具有以下特点:
    (1) 使用极其简单。可以轻松地画一些简单或复杂的图形,仅仅用几行代码就能生成直 方图、折线图、散点图等。
    (2) 以渐进、交互的方式实现数据可视化。
    (3) 对图形元素控制能力更强。
    (4) 可输出P N G 、P D F 等多种格式。

创建一个画布

在这里插入图片描述

指数曲线

在这里插入图片描述

直方图

在这里插入图片描述

饼状图

在这里插入图片描述

箱型图

在这里插入图片描述

散点图

在这里插入图片描述

会基于数据进行独立分析

海拔高度与登顶人数分析:

明确任务目的:

显示海报高度与登顶人物数目关系

明确数据来源及数据收集

数据来源来自网络数据统计
在这里插入图片描述

数据梳理和清洗:

在这里插入图片描述

数据分析:
1.登顶次数和年份

在这里插入图片描述

2.高峰vs海拔

在这里插入图片描述

3.首次登顶

在这里插入图片描述

数据展示

在这里插入图片描述

个人对于数据分析理解:

大数据时代下,用程序语言写出的数据报告可以轻松做出分析,利用我们分析的结论,进行阐述和说明,利用可视化和有逻辑的数据展示来达到更好的说服力。

学习数据分析课程:

除了课程上理论知识外,要多敲代码,多看案例,才能事半功倍

Logo

为开发者提供学习成长、分享交流、生态实践、资源工具等服务,帮助开发者快速成长。

更多推荐