大数据项目实战

带大家走一下大数据项目的整个实战流程，让读者了解大数据项目是如何运行的。对大数据有一个总体的概念。一、搭建大数据集群环境1.搭建大数据实验环境（1）Linux系统虚拟机的安装与克隆（2）配置虚拟机网络与SSH服务（3）搭建Hadoop集群（4）安装MySql数据库（5）安装 Hive(6) 安装 Sqoop(7) 其他组件的安装以上内容不再详细讲解，参考相关内容。二、数据爬取1.数据爬取技术数据爬

聊城云在天

6638人浏览 · 2021-06-11 17:59:36

聊城云在天 · 2021-06-11 17:59:36 发布

带大家走一下大数据项目的整个实战流程，让读者了解大数据项目是如何运行的。对大数据有一个总体的概念。

一、搭建大数据集群环境

1.搭建大数据实验环境

（1）Linux系统虚拟机的安装与克隆
（2）配置虚拟机网络与SSH服务
（3）搭建Hadoop集群
（4）安装MySql数据库
（5）安装 Hive
(6) 安装 Sqoop
(7) 其他组件的安装
以上内容不再详细讲解，参考相关内容。

二、数据爬取

1.数据爬取技术

数据爬取可以采用Java爬取，也可以采用python进行爬取。python在数据爬取方面代码简单，尽量采用python进行数据爬取。

2.爬取的数据上传到HDFS

在windows上采集的数据，上传到hdfs方式很多。采集网页的数据上传到hdfs主要有以下两种：
（1）通过java 或者python操作hdfs上传。
python操作hdfs模块上传文件到HDFS
https://blog.csdn.net/Smallcaff/article/details/79488350
（2）将采集的数据先上传到linux服务器，再上传到hdfs
参考：https://blog.csdn.net/qq_43584847/article/details/98874497