在windows中搭建spark单机版
虽然要学习spark,选择linux的版本更合适,之前在台式机上配置了centos的虚拟机并安装了hadoop和spark,可是无奈笔记本性能不行,如果安装虚拟机会很卡,所以只能在windows中安装spark加以练习1.1、jdk安装安装Oracle下的jdk,我安装的是jdk 1.7,安装完新建系统环境变量JAVA_HOME,变量值为“C:\Program Files\Java\jdk...
虽然要学习spark,选择linux的版本更合适,之前在台式机上配置了centos的虚拟机并安装了hadoop和spark,可是无奈笔记本性能不行,如果安装虚拟机会很卡,所以只能在windows中安装spark加以练习
1.1、jdk安装
安装Oracle下的jdk,我安装的是jdk 1.7,安装完新建系统环境变量JAVA_HOME,变量值为“C:\Program Files\Java\jdk1.7.0_79”,视自己安装路劲而定。
同时在系统变量Path下添加C:\Program Files\Java\jdk1.7.0_79\bin和C:\Program Files\Java\jre7\bin。
1.2 spark环境变量配置
去http://spark.apache.org/downloads.html网站下载相应Hadoop对应的版本,我下载的是spark-1.6.0-bin-hadoop2.6.tgz,spark版本是1.6,对应的hadoop版本是2.6
解压下载的文件,假设解压 目录为:D:\spark-1.6.0-bin-hadoop2.6。将D:\spark-1.6.0-bin-hadoop2.6\bin添加到系统Path变量,同时新建SPARK_HOME变量,变量值为:D:\spark-1.6.0-bin-hadoop2.6
1.3 hadoop工具包安装
spark是基于hadoop之上的,运行过程中会调用相关hadoop库,如果没配置相关hadoop运行环境,会提示相关出错信息,虽然也不影响运行,但是这里还是把hadoop相关库也配置好吧。
1.3.1 去下载hadoop 2.6编译好的包,从官网选择合适的版本 http://hadoop.apache.org/releases.html,我下载的是hadoop-2.6.0.tar.gz,
1.3.2 解压下载的文件夹,将相关库添加到系统Path变量中:D:\hadoop-2.6.0\bin;同时新建HADOOP_HOME变量,变量值为:D:\hadoop-2.6.0
(就算不用分布式系统也一定要安装hadoop,否则无法运行单机版spark,强烈建议用迅雷下载以上软件,直接下载会很慢)
2.1 安装python,并添加到系统变量path中:C:\Python27和C:\Python27\Scripts
2.2 重复1.2和1.3步骤
2.3 将spark目录下的pyspark文件夹(D:\spark-1.6.0-bin-hadoop2.6\python\pyspark)复制到python安装目录C:\Python27\Lib\site-packages里(若使用的是anaconda,则放到anaconda相应文件夹下)
2.4 在cmd命令行下运行pyspark,然后运行pip install py4j安装相关库。
完成上述步骤后一定要重启电脑!!
2.5 使用spyder/pycharm,输入以下代码就可以使用spark了:
from pyspark import SparkConf, SparkContext
conf =SparkConf().setMaster("local").setAppName("MY First App")
sc = SparkContext(conf = conf)
若报错:无法找到winutils.exe,则上网找相应的文件放到Hadoop/bin目录下即可
若报错:无法连接Java服务器,
则使用Eclipse或者Java运行下列程序,从Python/share中导入py4j0.9.jar,启动Java服务即可解决上述问题:
import py4j.GatewayServer;
public class myTest {
public static void main(String[] args) {
myTest app = new myTest();
// app is now the gateway.entry_point
GatewayServer server = new GatewayServer(app);
server.start();
}
}
更多推荐
所有评论(0)