优化大数据量查询方案——SpringBoot(Cloud)整合ES
实际业务场景中,多端的查询功能都有很大的优化空间。常见的处理方式有建索引、建物化视图简化查询逻辑、DB层之上建立缓存、分页…然而随着业务数据量的不断增多,总有那么一张表或一个业务,是无法通过常规的处理方式来缩短查询时间的。在查询功能优化上,作为开发人员应该站在公司的角度,本着优化客户体验的目的去寻找解决方案。本人有幸做过Tomcat整合solr,今天一起研究一下当前比较火热的Elasticsear
一、Elasticsearch简介
实际业务场景中,多端的查询功能都有很大的优化空间。常见的处理方式有:建索引、建物化视图简化查询逻辑、DB层之上建立缓存、分页…然而随着业务数据量的不断增多,总有那么一张表或一个业务,是无法通过常规的处理方式来缩短查询时间的。在查询功能优化上,作为开发人员应该站在公司的角度,本着优化客户体验的目的去寻找解决方案。本人有幸做过Tomcat整合solr,今天一起研究一下当前比较火热的Elasticsearch搜索引擎。
Elasticsearch 是一个非常强大的搜索引擎。它目前被广泛地使用于各个 IT 公司。Elasticsearch 是由 Elastic 公司创建。它的代码位于 GitHub - elastic/elasticsearch: Free and Open, Distributed, RESTful Search Engine。目前,Elasticsearch 是一个免费及开放(free and open)的项目。同时,Elastic 公司也拥有 Logstash 及 Kibana 开源项目。这个三个项目组合在一起,就形成了 ELK 软件栈。他们三个共同形成了一个强大的生态圈。简单地说,Logstash 负责数据的采集,处理(丰富数据,数据转换等),Kibana 负责数据展示,分析,管理,监督及应用。Elasticsearch 处于最核心的位置,它可以帮我们对数据进行快速地搜索及分析。
二、Elasticsearch使用
1.1下载
下载的方式有很多中,下面介绍我使用的方式。(MacOS系统)
wget https://artifacts.elastic.co/downloads/elasticsearch/elasticsearch-7.3.0-darwin-x86_64.tar.gz
wget https://artifacts.elastic.co/downloads/elasticsearch/elasticsearch-7.3.0-darwin-x86_64.tar.gz.sha512
shasum -a 512 -c elasticsearch-7.3.0-darwin-x86_64.tar.gz.sha512
tar -xzf elasticsearch-7.3.0-darwin-x86_64.tar.gz
cd elasticsearch-7.3.0/
1)weget命令下载,其中第三步是对下载内容进行完整性校验,当出现OK时,说明下载的内容共是完整无误的。
2)brew命令下载
brew install elasticsearch
我的电脑是macOS12.0系统,下载时提示我的Xcode版本过低不兼容。网上有很多使用brew命令下载成功的,可以进行参考。
1.2启动Elasticsearch
完成下载后,在bin目录下进行启动
./bin/elasticsearch
完成启动后,控制台显示如下
而后进行页面测试访问,postman也可以, curl也行,默认启动端口9200。
当出现如上图显示,表示ES第一步启动成功。
同时,为了方便查看ES中的相关数据,可以安装一下elasticsearch-head 可视化插件,网址如下
可视化插件下载
下载完成后打开代码,是一个前端项目
控制台启动
npm install
npm run start
启动成功如上图,打开浏览器访问9100
做到这步感觉对了又好像有点问题,打开控制台查看
发现全部是CORS错误。到下载的ESconfig文件夹下,修改文件elasticsearch.yml ,添加下面两行配置。
http.cors.enabled: true
http.cors.allow-origin: "*"
若出现如下图显示的内容,标识启动成功。如果未有下图这样显示,留言交流。
1.3Kibana
除了上面下载的可视化插件。官方提供的是Kibana。Kibana 是一个开源分析和可视化平台,旨在与 Elasticsearch 协同工作。 你使用 Kibana 搜索,查看和与存储在 Elasticsearch 索引中的数据进行交互。 你可以轻松执行高级数据分析,并在各种图表,表格和地图中可视化你的数据。
Kibana 使你可以轻松理解大量数据。 其简单的基于浏览器的界面使你能够快速创建和共享动态仪表板,实时显示 Elasticsearch 查询的更改。
1.3.1安装
官方网址
不支持运行 Kibana 和 Elasticsearch 的不同主要版本(例如 Kibana 5.x 和 Elasticsearch 2.x),也不支持比 Elasticsearch 版本更新的 Kibana 次要版本(例如 Kibana 5.1 和 Elasticsearch 5.0)。
curl -O https://artifacts.elastic.co/downloads/kibana/kibana-7.3.0-darwin-x86_64.tar.gz
shasum -a 512 kibana-7.3.0-darwin-x86_64.tar.gz
tar -xzf kibana-7.3.0-darwin-x86_64.tar.gz
cd kibana-7.3.0-darwin-x86_64/
同时也可以使用brew命令下载
brew install kibana
启动命令
./bin/kibana
当出现上图所示以后,访问端口,默认5601
我们也可以在浏览器中输入如下的地址 http://localhost:5601/status 以查看 Kibana 的状态:
1.3.1汉化Kibana
进入Kibana的config文件下,修改yml文件
i18n.locale: "zh-CN"
完成后 重新启动Kibana,访问地址如下:
成功汉化。
1.4创建索引及文档
有了上面的实例化工具,下面在页面上创建一个索引(index),并插入一个文档(document)。在日常的DB层,我们通常需要有专用的语句来生产相应的数据库,表格,然后才可以让我们输入相应的记录,但是针对 Elasticsearch 来说,这个是不必须的。ES是resultful请求完成操作。我们在左边的窗口中输入如下:
PUT estest/_doc/1
{
"user": "zym",
"uid": 1,
"city": "Nanjing",
"province": "Nanjing",
"country": "China"
}
请求参数解析:PUT请求。estest为索引名称,_doc 为索引类型。json为存储的内容。返回sussessful:1时候,表示成功。其实,从创建就可以看出来一个很明显的问题,我们的字段定义,如user,uid,city等我们并没有像常规数据库中把每个目标值定义数据类型,数据长度。为了提高入门时的易用性,Elasticsearch 可以自动动态地为你创建索 mapping。当我们建立一个索引的第一个文档时,如果你没有创建它的 schema,那么 Elasticsearch 会根据所输入字段的数据进行猜测它的数据类型,比如上面的 user 被被认为是 text 类型,而 uid 将被猜测为整数类型。这种方式我们称之为 schema on write,也即当我们写入第一个文档时,Elasticsearch 会自动帮我们创建相应的 schema。
写入文档时,如ID已存在,则更新文档内容,如不存在,创建文档。
根据索引名称_mapping请求,可以得到在ES中各字段被定义的类型。
关于控制台的resultful请求有很多,在这里不做过多诠释,创建(Create),读取(Read),修改(Update),删除文档(Delete)(CRUD)全部包含。具体的请求及参数可以查看官方文档。
至此,完成ES的配置、安装、启动。下面进行关键的一步,整合SpringBoot。
1.4整合SpringBoot
Sringboot整合ES的方法有很多,我也查询了相关资料,分别是TransportClient、RestClient、SpringData-Es、Elasticsearch-SQL。官方推荐的是RestClient。
相关依赖:
1.4.1引入依赖
<dependency>
<groupId>org.springframework.boot</groupId>
<artifactId>spring-boot-starter-data-elasticsearch</artifactId>
</dependency>
1.4.2配置bean
@Bean
public RestHighLevelClient restHighLevelClient() {
// 如果有多个从节点可以持续在内部new多个HttpHost,参数1是IP,参数2是端口,参数3是通信协议
return new RestHighLevelClient(RestClient.builder(new HttpHost("localhost", 9200, "http")));
}
该配置指向启动的ES服务。
1.4.2测试
做一个添加测试,代码如下
@Autowired
private RestHighLevelClient restHighLevelClient;
// IndexRequest
IndexRequest indexRequest = new IndexRequest("users");
User user = new User();
user.setName("张一鸣");
user.setAge(20);
String source = JSONObject.toJSONString(user);
indexRequest.id("1").source(source, XContentType.JSON);
// 操作ES
IndexResponse indexResponse = restHighLevelClient.index(indexRequest, RequestOptions.DEFAULT);
debug查看,发现执行完成。
从Kibana控制台查看资源,像索引为users里 添加一条用户信息。通过控制台_source查询资源可以看到,数据已成功放入ES。
修改操作
// UpdateRequest
UpdateRequest updateRequest = new UpdateRequest("users", "1");
User user = new User();
user.setName("南京擎天");
user.setAge(20);
updateRequest.doc(JSON.toJSONString(user), XContentType.JSON);
// 操作ES
restHighLevelClient.update(updateRequest, RequestOptions.DEFAULT);
修改操作
// DeleteRequest
DeleteRequest deleteRequest = new DeleteRequest("users", "1");
// 操作ES
DeleteResponse deleteResponse = restHighLevelClient.delete(deleteRequest, RequestOptions.DEFAULT);
查询操作
@Test
public void search() throws IOException {
// SearchRequest
SearchRequest searchRequest = new SearchRequest();
searchRequest.indices("users");
// 构建检索条件
SearchSourceBuilder searchSourceBuilder = new SearchSourceBuilder();
// 分页采用简单的from + size分页,适用数据量小的,了解更多分页方式可自行查阅资料
// searchSourceBuilder.from((page - 1) * rows);
// searchSourceBuilder.size(rows);
// 查询所有
// QueryBuilder queryBuilder = QueryBuilders.matchAllQuery();
// 根据字段匹配
QueryBuilder queryBuilder = QueryBuilders.matchQuery("userName","李四");
searchSourceBuilder.query(queryBuilder);
searchRequest.source(searchSourceBuilder);
// 查询ES
SearchResponse searchResponse = restHighLevelClient.search(searchRequest, RequestOptions.DEFAULT);
System.out.println("查询结果:" + searchResponse.toString());
SearchHits hits = searchResponse.getHits();
// 遍历封装列表对象
List<User> userList = new ArrayList<>();
SearchHit[] searchHits = hits.getHits();
for (SearchHit searchHit : searchHits) {
userList.add(JSON.parseObject(searchHit.getSourceAsString(), User.class));
}
System.out.println(userList);
}
以上以以简单的样例实现了springboot整合ES。使用起来很方便,对20W+的数据进行了测试,结果是毫秒级的响应。当然在实际项目应用当中,要充分根据项目的业务、框架进行拓展,充分发挥搜索引擎的优势,不断的提高客户体验,这样的产品才会得到客户的青睐。
注意问题
ES是个近实时查询引擎,和solr一样,所有的数据是在建立索引之上进行。在项目中对某一条数据的CUD一定要和数据库同步,对ES中的数据就行了相关调整后,也要异步对DB层的数据进行调整。确保数据的一致性。由于近段时间项目工作时间紧张,很多的细节操作及底层的实现包括结合项目的整体设计思路没有一一说明,需要用到的朋友可以对此篇文章做一个参考,有疑问欢迎留言沟通。
/* Powerd by zym */
0 error(s),0 warning(s)
更多推荐
所有评论(0)