Spark SQL DataFrame查看函数一文详解运用与方法

前言配置的虚拟机为Centos6.7系统，hadoop版本为2.6.0版本，先前已经完成搭建CentOS部署Hbase、CentOS6.7搭建Zookeeper和编写MapReduce前置插件Hadoop-Eclipse-Plugin 安装。在此基础上完成了Hive详解以及CentOS下部署Hive和Mysql和Spark框架在CentOS下部署搭建。Spark的组件Spark SQL的部署：Sp

fanstuck

1893人浏览 · 2021-04-18 23:55:31

fanstuck · 2021-04-18 23:55:31 发布

前言

配置的虚拟机为Centos6.7系统，hadoop版本为2.6.0版本，先前已经完成搭建CentOS部署Hbase、CentOS6.7搭建Zookeeper和编写MapReduce前置插件Hadoop-Eclipse-Plugin 安装。在此基础上完成了Hive详解以及CentOS下部署Hive和Mysql和Spark框架在CentOS下部署搭建。Spark的组件Spark SQL的部署：Spark SQL CLI部署CentOS分布式集群Hadoop上方法。

配置JDK1.8、Scala11.12

本文将介绍DataFrame基础操作以及实例运用

DataFrame查看数据

Spark DataFrame常用操作函数或方法

函数或方法	描述
printSchema	打印数据模式
show	查看数据
first/head/take/takeAsList	获取若干行数据
collect/collectAsList	获取所有数据

下面将：文件转化为DataFrame进行操作：

1.printSchema:打印数据模式

查看数据模式可以通过printSchema函数来查看，它会答应后出列的名称和类型。

2.show:查看数据

show相关方法

方法	介绍
show()	显示前20条记录
show(numRows:Int)	显示numRows条记录
show(truncate:Boolean)	是否最多只显示20个字符，默认为true
show(numRows:Int,truncate:Boolean)	显示numRows条记录并设置过长字符串的显示格式

show（）：

show（5）：

show（false）：

3.first/head/take/takeAsList：获取若干行记录

DataFrame获取若干行记录的方法：

方法	解释
first	获取第一行记录
head(n:Int)	获取前n行记录
take（n：Int）	获取前n行记录
takeAsList(n:Int)	获取前n行数据，并以List的形式展现

first和head功能相同，以Row或者Array[Row]的形式返回一行或多行数据。