Spark SQL 集成ElasticSearch的案例实战
Spark SQL 集成ElasticSearch的案例实战ElasticSearch 概念回顾ElasticSearch是一个基于Lucene的搜索服务器。它提供了一个分布式多用户能力的全文搜索引擎,基于RESTful web接口。Elasticsearch是用Java开发的,并作为Apache许可条款下的开放源码发布,是当前流行的企业级搜索引擎。设计用于云计算中,能够达到实时搜索,稳定,可
·
Spark SQL 集成ElasticSearch的案例实战
ElasticSearch 概念回顾
ElasticSearch是一个基于Lucene的搜索服务器。它提供了一个分布式多用户能力的全文搜索引擎,基于RESTful web接口。Elasticsearch是用Java开发的,并作为Apache许可条款下的开放源码发布,是当前流行的企业级搜索引擎。设计用于云计算中,能够达到实时搜索,稳定,可靠,快速,安装使用方便。
Spark与ElasticSearch的集成
Java版本
public class SparkESJavaOps {
public static void main(String[] args) {
SparkConf conf = new SparkConf().setAppName(SparkESJavaOps.class.getSimpleName()).setMaster("local");
//在spark中自动创建es中的索引
conf.set("es.index.auto.create","true");
//设置在spark中连接es的url和端口
conf.set("es.nodes","master");
conf.set("es.port","9200");
JavaSparkContext sc = new JavaSparkContext(conf);
JavaRDD<String> jsonRDD = sc.textFile("E:/test/scala/sqldf.json");
//向es中插入数据
JavaEsSpark.saveJsonToEs(jsonRDD,"spark3/person");
//从es中查询数据
/***
* es索引库的三级目录
* index/type/id
* es
* index -->db
* type -->table
* document -->row
* field --> column
* esJsonRDD 返回的数据JavaPairRDD <String,String> -->t._1就是es中每一个document的id,唯一标识
* t._2就是document数据
* */
JavaEsSpark.esJsonRDD(sc,"spark3/person").foreach(new VoidFunction<Tuple2<String, String>>(){
@Override
public void call(Tuple2<String, String> tuple) throws Exception {
System.out.println(tuple._1()+" ===> " +tuple._2());
}
});
}
}
Scala版本
/**
* Spark 与 ES 的集成
*/
object SparkESOps extends App{
val conf = new SparkConf().setAppName("SparkESOps").setMaster("local")
//在spark中自动创建es中的索引
conf.set("es.index.auto.creaete","true")
//设置在Spark 中连接 es的url和端口
conf.set("es.nodes","master")
conf.set("es.port","9200")
val sc = new SparkContext(conf)
//向es中写入数据
val linesRDD = sc.textFile("E:/test/scala/sqldf.json")
//这里面参数resources指定的就是es中的索引库和类型格式为:index/type
linesRDD.saveJsonToEs("spark2/person")
//查询数据
val personRDD = sc.esJsonRDD("spark2/person")
personRDD.foreach(println)
sc.stop()
}
更多推荐
已为社区贡献1条内容
所有评论(0)