ElasticSearch 之 数据类型
ElasticSearch的数据类型,包括keyword、text、数值、布尔、日期、数组、对象以及地理类型。
·
1. keyword类型
- keyword类型是不进行切分的字符串类型。这里的“不进行切分”指的是:
- 在索引时,对keyword类型的数据不进行切分,直接构建倒排索引;
- 在搜索时,对该类型的查询字符串不进行切分后的部分匹配。
- keyword类型数据一般用于对文档的过滤、排序和聚合。
- 在现实场景中,keyword经常用于描述姓名、产品类型、用户ID、URL和状态码等。keyword类型数据一般用于比较字符串是否相等,不对数据进行部分匹配,因此一般查询这种类型的数据时使用term查询。
2. text类型
- text类型是可进行切分的字符串类型。这里的“可切分”指的是:
- 在索引时,可按照相应的切词算法对文本内容进行切分,然后构建倒排索引;
- 在搜索时,对该类型的查询字符串按照用户的切词算法进行切分,然后对切分后的部分匹配打分。
- term搜索用于搜索值和文档对应的字段是否完全相等,而对于text类型的数据,在建立索引时ES已经进行了切分并建立了倒排索引,因此使用term搜索不到数据。一般情况下,搜索text类型的数据时应使用match搜索。
3. 数值类型
- ES支持的数值类型有long、integer、short、byte、double、float、half_float、scaled_float和unsigned_long等。
- 各类型所表达的数值范围可以参考官方文档。
- 为节约存储空间并提升搜索和索引的效率,在实际应用中,在满足需求的情况下应尽可能选择范围小的数据类型。比如,年龄字段的取值最大值不会超过200,因此选择byte类型即可。数值类型的数据也可用于对文档进行过滤、排序和聚合。
4. 布尔类型
- 布尔类型使用boolean定义,用于业务中的二值表示,如商品是否售罄,房屋是否已租,酒店房间是否满房等。
- 写入或者查询该类型的数据时,其值可以使用true和false,或者使用字符串形式的"true"和"false"。
5. 日期类型
- 在ES中,日期类型的名称为date。
- ES中存储的日期是标准的UTC格式。
- 一般使用如下形式表示日期类型数据:
- 格式化的日期字符串。
- 毫秒级的长整型,表示从1970年1月1日0点到现在的毫秒数。
- 秒级别的整型,表示从1970年1月1日0点到现在的秒数。
- 日期类型的默认格式为
strict_date_optional_time||epoch_millis
。其中,strict_date_optional_time
的含义是严格的时间类型,支持yyyy-MM-dd
、yyyyMMdd
、yyyyMMddHHmmss
、yyyy-MM-ddTHH:mm:ss
、yyyy-MM-ddTHH:mm:ss.SSS
和yyyy-MM-ddTHH:mm:ss.SSSZ
等格式,epoch_millis
的含义是从1970年1月1日0点到现在的毫秒数。 - 搜索日期型数据时,一般使用range查询。
- 日期类型默认不支持
yyyy-MM-dd HH:mm:ss
格式,如果经常使用这种格式,可以在索引的mapping中设置日期字段的format属性为自定义格式。
6. 数组类型
- ES数组没有定义方式,其使用方式是开箱即用的,即无须事先声明,在写入时把数据用中括号[]括起来,由ES对该字段完成定义。
- 当然,如果事先已经定义了字段类型,在写数据时以数组形式写入,ES也会将该类型转为数组。
- 数组类型的字段适用于元素类型的搜索方式,也就是说,数组元素适用于什么搜索,数组字段就适用于什么搜索。
- 例如,数组元素类型是keyword,该类型可以适用于term搜索,则该字段也可以适用于term搜索;
7. 对象类型
- 在实际业务中,一个文档需要包含其他内部对象。
- 例如,在酒店搜索需求中,用户希望酒店信息中包含评论数据。评论数据分为好评数量和差评数量。为了支持这种业务,在ES中可以使用对象类型。
- 和数组类型一样,对象类型也不用事先定义,在写入文档的时候ES会自动识别并转换为对象类型。
- 根据对象类型中的属性进行搜索,可以直接用“.”操作符进行指向。
- 当然,对象内部还可以包含对象。
8. 地理类型
- 移动互联网时代,用户借助移动设备产生的消费也越来越多。
- 例如,用户需要根据某个地理位置来搜索酒店,此时可以把酒店的经纬度数据设置为地理数据类型。
- 该类型的定义需要在mapping中指定目标字段的数据类型为geo_point类型。
更多推荐
已为社区贡献5条内容
所有评论(0)