Elasticsearch
资料来源: 鱼皮推荐-电商项目
# 一、 全文检索工具elasticsearch
如果es打不开:卸掉,把一些不相关tar.gz 删掉!
# 1 lucene与elasticsearch
咱们之前讲的处理分词,构建倒排索引,等等,都是这个叫lucene的做的。那么能不能说这个lucene就是搜索引擎呢?
还不能。lucene只是一个提供全文搜索功能类库的核心工具包,而真正使用它还需要一个完善的服务框架搭建起来的应用。
好比lucene是类似于jdk,而搜索引擎软件就是tomcat 的。
目前市面上流行的搜索引擎软件,主流的就两款,elasticsearch和solr,这两款都是基于lucene的搭建的,可以独立部署启动的搜索引擎服务软件。由于内核相同,所以两者除了服务器安装、部署、管理、集群以外,对于数据的操作,修改、添加、保存、查询等等都十分类似。就好像都是支持sql语言的两种数据库软件。只要学会其中一个另一个很容易上手。
从实际企业使用情况来看,elasticSearch的市场份额逐步在取代solr,国内百度、京东、新浪都是基于elasticSearch实现的搜索功能。国外就更多了 像维基百科、GitHub、Stack Overflow等等也都是基于ES的
# 2 elasticSearch的使用场景
- 为用户提供按关键字查询的全文搜索功能。
- 著名的ELK框架(ElasticSearch,Logstash,Kibana),实现企业海量日志的处理分析的解决方案。大数据领域的重要一份子。
# 3 elasticSearch的安装
详见《elasticSearch的安装手册》
# 4 elasticsearch的基本概念
| cluster | 整个elasticsearch 默认就是集群状态,整个集群是一份完整、互备的数据。 |
|---|---|
| node | 集群中的一个节点,一般只一个进程就是一个node |
| Shard | 分片,即使是一个节点中的数据也会通过hash算法,分成多个片存放,默认是5片。 |
| Index | 相当于rdbms的database, 对于用户来说是一个逻辑数据库,虽然物理上会被分多个shard存放,也可能存放在多个node中。 |
| Type | 类似于rdbms的table,但是与其说像table,其实更像面向对象中的class , 同一Json的格式的数据集合。 |
| Document | 类似于rdbms的 row、面向对象里的object |
| Field | 相当于字段、属性 |
# 5 利用kibana学习 elasticsearch restful api (DSL)
# 5.1 es中保存的数据结构
public class Movie {
String id;
String name;
Double doubanScore;
List<Actor> actorList;
}
public class Actor{
String id;
String name;
}
2
3
4
5
6
7
8
9
10
11
这两个对象如果放在关系型数据库保存,会被拆成2张表,但是elasticsearch是用一个json来表示一个document。
所以它保存到es中应该是:
{
“id”:”1”,
“name”:”operation red sea”,
“doubanScore”:”8.5”,
“actorList”:[
{“id”:”1”,”name”:”zhangyi”},
{“id”:”2”,”name”:”haiqing”},
{“id”:”3”,”name”:”zhanghanyu”}
]
}
2
3
4
5
6
7
8
9
10
# 5.2 对数据的操作
# 5.2.1 查看es中有哪些索引
| GET /_cat/indices?v |
|---|
es 中会默认存在一个名为.kibana的索引
表头的含义
| health | green(集群完整) yellow(单点正常、集群不完整) red(单点不正常) |
|---|---|
| status | 是否能使用 |
| index | 索引名 |
| uuid | 索引统一编号 |
| pri | 主节点几个 |
| rep | 从节点几个 |
| docs.count | 文档数 |
| docs.deleted | 文档被删了多少 |
| store.size | 整体占空间大小 |
| pri.store.size | 主节点占 |
# 5.2.2 增加一个索引
| PUT /movie_index |
|---|
# 5.2.3 删除一个索引
ES 是不删除也不修改任何数据 ,伪删除更新当前index的版本。
| DELETE /movie_index |
|---|
# 5.2.4 新增文档
- 格式 PUT /index/type/id
PUT /movie_index/movie/1
{ "id":1,
"name":"operation red sea",
"doubanScore":8.5,
"actorList":[
{"id":1,"name":"zhang yi"},
{"id":2,"name":"hai qing"},
{"id":3,"name":"zhang han yu"}
]
}
PUT /movie_index/movie/2
{
"id":2,
"name":"operation meigong river",
"doubanScore":8.0,
"actorList":[
{"id":3,"name":"zhang han yu"}
]
}
PUT /movie_index/movie/3
{
"id":3,
"name":"incident red sea",
"doubanScore":5.0,
"actorList":[
{"id":4,"name":"liu de hua"}
]
}
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
如果之前没建过index或者type,es 会自动创建。
# 5.2.5 直接用id查找
| GET movie_index/movie/1 |
|---|
# 5.2.6 修改—整体替换
和新增没有区别
PUT /movie_index/movie/3
{
"id":"3",
"name":"incident red sea",
"doubanScore":"5.0",
"actorList":[
{"id":"1","name":"zhang guo li"}
]
}
2
3
4
5
6
7
8
9
10
# 5.2.7 修改—某个字段 更新es商品中的排名
POST movie_index/movie/3/_update
{
"doc": {
"doubanScore":"7.0"
}
}
2
3
4
5
6
7
# 5.2.8 删除一个document
| DELETE movie_index/movie/3 |
|---|
# 5.2.9 搜索type全部数据
| GET movie_index/movie/_search |
|---|
结果
{
"took": 2, //耗费时间 毫秒
"timed_out": false, //是否超时
"_shards": {
"total": 5, //发送给全部5个分片
"successful": 5,
"skipped": 0,
"failed": 0
},
"hits": {
"total": 3, //命中3条数据
"max_score": 1, //最大评分
"hits": [ // 结果
{
"_index": "movie_index",
"_type": "movie",
"_id": 2,
"_score": 1,
"_source": {
"id": "2",
"name": "operation meigong river",
"doubanScore": 8.0,
"actorList": [
{
"id": "1",
"name": "zhang han yu"
}
]
}
。。。。。。。。
。。。。。。。。
}
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
# 5.2.10 按条件查询(全部)
GET movie_index/movie/_search
{
"query":{
"match_all": {}
}
}
2
3
4
5
6
# 5.2.11 按分词查询
GET movie_index/movie/_search
{
"query":{
"match": {"name":"red"}
}
}
2
3
4
5
6
注意结果的评分
# 5.2.12 按分词子属性查询
GET movie_index/movie/_search
{
"query":{
"match": {"actorList.name":"zhang"}
}
}
2
3
4
5
6
# 5.2.13 match phrase 按词组查询
GET movie_index/movie/_search
{
"query":{
"match_phrase": {"name":"operation red"}
}
}
2
3
4
5
6
按短语查询,不再利用分词技术,直接用短语在原始数据中匹配
# 5.2.14 fuzzy查询
GET movie_index/movie/_search
{
"query":{
"fuzzy": {"name":"rad"}
}
}
2
3
4
5
6
校正匹配分词,当一个单词都无法准确匹配,es通过一种算法对非常接近的单词也给与一定的评分,能够查询出来,但是消耗更多的性能。
# 5.2.15 过滤--查询后过滤
GET movie_index/movie/_search
{
"query":{
"match": {"name":"red"}
},
"post_filter":{
"term": {
"actorList.id": 3
}
}
}
2
3
4
5
6
7
8
9
10
11
# 5.2.16 过滤--查询前过滤(推荐)
其实准确来说,ES中的查询操作分为2种:查询(query)和过滤(filter)。查询即是之前提到的query查询,它**(查询)默认会计算每个返回文档的得分,然后根据得分排序**。而**过滤(filter)只会筛选出符合的文档,并不计算得分,且它可以缓存文档。**所以,单从性能考虑,过滤比查询更快。 换句话说,过滤适合在大范围筛选数据,而查询则适合精确匹配数据。一般应用时,应先使用过滤操作过滤数据,然后使用查询匹配数据。
GET movie_index/movie/_search
{
"query":{
"bool":{
"filter":[ {"term": { "actorList.id": "1" }},
{"term": { "actorList.id": "3" }}
],
"must":{"match":{"name":"red"}}
}
}
}
2
3
4
5
6
7
8
9
10
11
term、terms过滤 term、terms的含义与查询时一致。term用于精确匹配、terms用于多词条匹配。不过既然过滤器适用于大氛围过滤,term、terms在过滤中使用意义不大。在项目中建议使用term。 Term: where id = ? Terms: where id in () ## select * from skuInfo where id=? Select * from skuInfo where id in ()
# 5.2.17 过滤--按范围过滤
GET movie_index/movie/_search
{
"query": {
"bool": {
"filter": {
"range": {
"doubanScore": {"gte": 8}
}
}
}
}
}
2
3
4
5
6
7
8
9
10
11
12
关于范围操作符:跟html标签中的转义字符一样!
| gt | 大于 |
|---|---|
| lt | 小于 |
| gte | 大于等于 |
| lte | 小于等于 |
# 5.2.18 排序
GET movie_index/movie/_search
{
"query":{
"match": {"name":"red sea"}
}
, "sort": [
{
"doubanScore": {
"order": "desc"
}
}
]
}
2
3
4
5
6
7
8
9
10
11
12
13
面试题:
Mysql 默认升序
Oracle 默认是升序
Sqlserver 默认是升序
端口号不一样,分页语句不一样!
3306 1521 1433
Limit rownum top
# 5.2.19 分页查询
GET movie_index/movie/_search
{
"query": { "match_all": {} },
// 第几条开始查询!
"from": 1,
"size": 1
}
2
3
4
5
6
7
# 5.2.20 指定查询的字段
GET movie_index/movie/_search
{
"query": { "match_all": {} },
"_source": ["name", "doubanScore"]
}
2
3
4
5
# 5.2.21 高亮
GET movie_index/movie/_search
{
"query":{
"match": {"name":"red sea"}
},
"highlight": {
"fields": {"name":{} }
}
}
2
3
4
5
6
7
8
9
10
修改自定义高亮标签
GET movie_index/movie/_search
{
"query":{
"match": {"name":"red sea"}
},
"highlight": {
"post_tags": ["</span>"],
"pre_tags": ["<span>"],
"fields": {"name":{} }
}
}
2
3
4
5
6
7
8
9
10
11
12
# 5.2.22 聚合
取出每个演员共参演了多少部电影 – sql : group by !
GET movie_index/movie/_search
{
"aggs": {
"groupby_actor": {
"terms": {
"field": "actorList.name.keyword"
}
}
}
}
2
3
4
5
6
7
8
9
10
每个演员参演电影的平均分是多少,并按评分排序
GET movie_index/movie/_search
{
"aggs": {
"groupby_actor_id": {
"terms": {
"field": "actorList.name.keyword" ,
"order": {
"avg_score": "desc"
}
},
"aggs": {
"avg_score":{
"avg": {
"field": "doubanScore"
}
}
}
}
}
}
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
# 5.3 关于mapping
之前说type可以理解为table,那每个字段的数据类型是如何定义的呢
查看看mapping
| GET movie_index/_mapping/movie |
|---|
实际上每个type中的字段是什么数据类型,由mapping定义。
但是如果没有设定mapping系统会自动,根据一条数据的格式来推断出应该的数据格式。
- true/false → boolean
- 1020 → long
- 20.1 → double,float
- “2018-02-01” → date
- “hello world” → text +keyword
默认只有text会进行分词,keyword是不会分词的字符串。
mapping除了自动定义,还可以手动定义,但是只能对新加的、没有数据的字段进行定义。一旦有了数据就无法再做修改了。
注意:虽然每个Field的数据放在不同的type下,但是同一个名字的Field在一个index下只能有一种mapping定义。
# 5.4 中文分词
elasticsearch本身自带的中文分词,就是单纯把中文一个字一个字的分开,根本没有词汇的概念。但是实际应用中,用户都是以词汇为条件,进行查询匹配的,如果能够把文章以词汇为单位切分开,那么与用户的查询条件能够更贴切的匹配上,查询速度也更加快速。
分词器下载网址:https://github.com/medcl/elasticsearch-analysis-ik (opens new window)
# 5.4.1 安装
下载好的zip包,请解压后放到 /usr/share/elasticsearch/plugins/
[root@localhost plugins]## unzip elasticsearch-analysis-ik-5.6.4.zip

将压缩包文件删除!否则启动失败!
然后重启es
[root@localhost plugins]## service elasticsearch restart
# 5.4.2 测试使用
使用默认
GET movie_index/_analyze
{
"text": "我是中国人"
}
2
3
4
请观察结果
使用分词器
GET movie_index/_analyze
{ "analyzer": "ik_smart",
"text": "我是中国人"
}
2
3
4
请观察结果
另外一个分词器
ik_max_word
GET movie_index/_analyze
{ "analyzer": "ik_max_word",
"text": "我是中国人"
}
2
3
4
请观察结果
能够看出不同的分词器,分词有明显的区别,所以以后定义一个type不能再使用默认的mapping了,要手工建立mapping, 因为要选择分词器。
# 5.4.3 基于中文分词搭建索引
1、建立mapping
PUT movie_chn
{
"mappings": {
"movie":{
"properties": {
"id":{
"type": "long"
},
"name":{
"type": "text"
, "analyzer": "ik_smart"
},
"doubanScore":{
"type": "double"
},
"actorList":{
"properties": {
"id":{
"type":"long"
},
"name":{
"type":"keyword"
}
}
}
}
}
}
}
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
插入数据
PUT /movie_chn/movie/1
{ "id":1,
"name":"红海行动",
"doubanScore":8.5,
"actorList":[
{"id":1,"name":"张译"},
{"id":2,"name":"海清"},
{"id":3,"name":"张涵予"}
]
}
PUT /movie_chn/movie/2
{
"id":2,
"name":"湄公河行动",
"doubanScore":8.0,
"actorList":[
{"id":3,"name":"张涵予"}
]
}
PUT /movie_chn/movie/3
{
"id":3,
"name":"红海事件",
"doubanScore":5.0,
"actorList":[
{"id":4,"name":"张国立"}
]
}
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
查询测试
GET /movie_chn/movie/_search
{
"query": {
"match": {
"name": "红海战役"
}
}
}
GET /movie_chn/movie/_search
{
"query": {
"term": {
"actorList.name": "张译"
}
}
}
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
# 5.4.4 自定义词库
什么使用?
当词库满足不了你的需要,可以使用自定义词库!
修改/usr/share/elasticsearch/plugins/ik/config/中的IKAnalyzer.cfg.xml
<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE properties SYSTEM "http://java.sun.com/dtd/properties.dtd">
<properties>
<comment>IK Analyzer 扩展配置</comment>
<!--用户可以在这里配置自己的扩展字典 -->
<entry key="ext_dict"></entry>
<!--用户可以在这里配置自己的扩展停止词字典-->
<entry key="ext_stopwords"></entry>
<!--用户可以在这里配置远程扩展字典 -->
<entry key="remote_ext_dict">http://192.168.67.163/fenci/myword.txt</entry>
<!--用户可以在这里配置远程扩展停止词字典-->
<!-- <entry key="remote_ext_stopwords">words_location</entry> -->
</properties>
2
3
4
5
6
7
8
9
10
11
12
13
按照标红的路径利用nginx发布静态资源
在nginx.conf中配置
server {
listen 80;
server_name 192.168.67.163;
location /fenci/ {
root es;
}
}
2
3
4
5
6
7
并且在/usr/local/nginx/下建/es/fenci/目录,目录下加myword.txt
myword.txt中编写关键词,每一行代表一个词。

然后重启es服务器,重启nginx。
在kibana中测试分词效果

更新完成后,es只会对新增的数据用新词分词。历史数据是不会重新分词的。如果想要历史数据重新分词。需要执行:
| POST movies_index_chn/_update_by_query?conflicts=proceed |
|---|
# 二、 Java程序中的应用
# 1 、搭建模块



pom.xml
<?xml version="1.0" encoding="UTF-8"?>
<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
<modelVersion>4.0.0</modelVersion>
<groupId>com.atguigu.gmall</groupId>
<artifactId>gmall-list-service</artifactId>
<version>0.0.1-SNAPSHOT</version>
<packaging>jar</packaging>
<name>gmall-list-service</name>
<description>Demo project for Spring Boot</description>
<parent>
<groupId>com.atguigu.gmall</groupId>
<artifactId>gmall-parent</artifactId>
<version>1.0-SNAPSHOT</version>
</parent>
<dependencies>
<dependency>
<groupId>com.atguigu.gmall</groupId>
<artifactId>gmall-interface</artifactId>
<version>1.0-SNAPSHOT</version>
</dependency>
<dependency>
<groupId>com.atguigu.gmall</groupId>
<artifactId>gmall-service-util</artifactId>
<version>1.0-SNAPSHOT</version>
</dependency>
</dependencies>
<build>
<plugins>
<plugin>
<groupId>org.springframework.boot</groupId>
<artifactId>spring-boot-maven-plugin</artifactId>
</plugin>
</plugins>
</build>
</project>
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
# 2、 关于es 的java 客户端的选择
目前市面上有两类客户端
一类是TransportClient 为代表的ES原生客户端,不能执行原生dsl语句必须使用它的Java api方法。
另外一种是以Rest Api为主的missing client,最典型的就是jest。 这种客户端可以直接使用dsl语句拼成的字符串,直接传给服务端,然后返回json字符串再解析。
两种方式各有优劣,但是最近elasticsearch官网,宣布计划在7.0以后的版本中废除TransportClient。以RestClient为主。

所以在官方的RestClient 基础上,进行了简单包装的Jest客户端,就成了首选,而且该客户端也与springboot完美集成。
# 3 、在gmall-list-service项目中导入Jest依赖
<dependency>
<groupId>org.springframework.boot</groupId>
<artifactId>spring-boot-starter-data-elasticsearch</artifactId>
</dependency>
<!-- https://mvnrepository.com/artifact/io.searchbox/jest -->
<dependency>
<groupId>io.searchbox</groupId>
<artifactId>jest</artifactId>
</dependency>
<!-- https://mvnrepository.com/artifact/net.java.dev.jna/jna -->
<dependency>
<groupId>net.java.dev.jna</groupId>
<artifactId>jna</artifactId>
</dependency>
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
其中jest和jna请将版本号,部分纳入gmall-parent中管理。spring-boot-starter-data-elasticsearch不用管理版本号,其版本跟随springboot的1.5.10大版本号。
# 4 、在测试类中测试ES
application.properties中加入
server.port=8085
logging.level.root=error
spring.dubbo.application.name=list-service
spring.dubbo.registry.protocol=zookeeper
spring.dubbo.registry.address=192.168.67.203:2181
spring.dubbo.base-package=com.atguigu.gmall0319
spring.dubbo.protocol.name=dubbo
spring.datasource.url=jdbc:mysql://localhost:3306/gmall?characterEncoding=UTF-8
spring.datasource.username=root
spring.datasource.password=root
spring.datasource.driver-class-name=com.mysql.jdbc.Driver
#mybatis
mybatis.mapper-locations=classpath:mapper/*Mapper.xml
mybatis.configuration.mapUnderscoreToCamelCase=true
## redis
spring.redis.host=192.168.67.203
spring.redis.port=6379
spring.redis.database=0
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
| spring.elasticsearch.jest.uris=http://192.168.67.163:9200 |
|---|
在springBoot 测试类 中添加
@Autowired
JestClient jestClient;
@Test
public void testEs() throws IOException {
String query="{\n" +
" \"query\": {\n" +
" \"match\": {\n" +
" \"actorList.name\": \"张译\"\n" +
" }\n" +
" }\n" +
"}";
Search search = new Search.Builder(query).addIndex("movie_chn").addType("movie").build();
SearchResult result = jestClient.execute(search);
List<SearchResult.Hit<HashMap, Void>> hits = result.getHits(HashMap.class);
for (SearchResult.Hit<HashMap, Void> hit : hits) {
HashMap source = hit.source;
System.err.println("source = " + source);
}
}
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
打印结果:

以上技术方面的准备就做好了。下面回到咱们电商的业务