ElasticSearch(二)

六.Docker安装

1.Docker中安装ElasticSearch

1.1下载ElasticSearch和kibana

#存储和检索数据
docker pull elasticsearch:7.6.2
#可视化检索数据
docker pull kibana:7.6.2

1.2配置

#创建config目录
mkdir -p /mydata/elasticsearch/config目录
#创建data目录
mkdir -p /mydata/elasticsearch/data
#写入配置
echo "http.host: 0.0.0.0" >/mydata/elasticsearch/config/elasticsearch.yml
#保证权限问题
chmod -R 777 /mydata/elasticsearch/

1.3启动ElasticSearch

docker run --name elasticsearch -p 9200:9200 -p 9300:9300 \
-e  "discovery.type=single-node" \
-e ES_JAVA_OPTS="-Xms64m -Xmx512m" \
-v /mydata/elasticsearch/config/elasticsearch.yml:/usr/share/elasticsearch/config/elasticsearch.yml \
-v /mydata/elasticsearch/data:/usr/share/elasticsearch/data \
-v  /mydata/elasticsearch/plugins:/usr/share/elasticsearch/plugins \
-d elasticsearch:7.6.2

如果显示下图，则启动成功

1.4设置开机启动ElasticSearch

docker update elasticsearch --restart=always

1.5启动kibana

docker run --name kibana -e ELASTICSEARCH_HOSTS=http://`自己的主机地址`:9200 -p 5601:5601 -d kibana:7.6.2

如果显示下图，则启动成功

1.6设置开机启动kibana

docker update kibana  --restart=always

2.初步探索

2.1 _cat命令

GET/_cat/nodes：查看所有节点

如：http://主机IP:9200/_cat/nodes

127.0.0.1 15 96 2 0.02 0.08 0.07 dilm * ecc0cd748420

注：*表示集群中的主节点

GET/_cat/health：查看es健康状况

如：http://主机IP:9200/_cat/health

1651039692 06:08:12 elasticsearch green 1 1 3 3 0 0 0 0 - 100.0%

注：green表示健康值正常

GET/_cat/master：查看主节点

如：http://主机IP:9200/_cat/master

6yNoV8kzSzKNZMZphXRdFw 127.0.0.1 127.0.0.1 ecc0cd748420

GET/_cat/indicies：查看所有索引，等价于MySQL数据库的show databases;

如：http://主机IP:9200/_cat/indicies

green open .kibana_task_manager_1   MTE_79x8S9itpEK34-zVsQ 1 0 2 0   34kb   34kb
green open .apm-agent-configuration ypUWMXNcRtmpjBWR-ji-EQ 1 0 0 0   283b   283b
green open .kibana_1                Ax4hZXYhSMafWC7IkwzWwQ 1 0 7 0 31.2kb 31.2kb

2.2索引一个文档(保存)

保存一个数据，保存在哪个索引的哪个类型下，指定用那个唯一标识

PUT方式 customer/external/1;在customer索引下的external类型下保存1号数据

{
 "name":"John Doe"
}

请求地址： http://主机IP:9200/customer/external/1

得到如下图结果，则是请求成功

{
    "_index": "customer",   //表明该数据在哪个数据库下；
    "_type": "external",    //表明该数据在哪个类型下；
    "_id": "1",             //表明被保存数据的id；
    "_version": 1,          //被保存数据的版本;
    "result": "created",    //这里是创建了一条数据，如果重新put一条数据，则该状态会变为updated，并且版本号也会发生变化。
}

POST方式 customer/external/1;在customer索引下的external类型下保存1号数据

添加数据的时候，不指定ID，会自动的生成id，并且类型是新增
再次使用POST插入数据，仍然是新增的
添加数据的时候，指定ID，会使用该id，并且类型是新增
再次使用POST插入数据，类型为updated

注意：

PUT方式和POST方式的区别在于，PUT方式后面必须带ID。否则会出现下图错误

2.3查询文档

GET /customer/external/1

请求地址： http://主机IP:9200/customer/external/1

{
    "_index": "customer",  //在哪个索引
    "_type": "external",   //在哪个类型
    "_id": "1",            //记录id
    "_version": 1,         //版本号
    "_seq_no": 0,          //并发控制字段，每次更新都会+1，用来做乐观锁
    "_primary_term": 1,    //同上，主分片重新分配，如重启，就会变化
    "found": true,         //找到了这个数据
    "_source": {           //真正的内容
        "name": "Jhon Doe"
    }
}

通过 http://主机IP:9200/customer/external/1?if_seq_no=0&if_primary_term=1 ，当序列号匹配的时候，才进行修改，否则不修改。

修改失败时，如下图显示：

2.4更新文档

2.4.1POST更新文档，带有_update

请求地址：http://主机IP:9200/customer/external/1/_update

//一定要带上doc
{
    "doc":{
        "name": "Jhon Doe"
    }
}

当重复更新一样的数据时

{
    "_index": "customer",
    "_type": "external",
    "_id": "1",
    "_version": 3,            //版本也不增加
    "result": "noop",       //此时显示的noop，表示没有做任何操作
    "_shards": {
        "total": 0,
        "successful": 0,
        "failed": 0
    },
    "_seq_no": 3,            //序列号不改变
    "_primary_term": 1
}

2.4.2POST更新文档，不带_update

请求地址：http://主机IP:9200/customer/external/1

//不用带上doc
{
 "name": "Jhon Doe"
}

当重复更新一样的数据时，表示不会检查元数据，每次都做更新

{
    "_index": "customer",
    "_type": "external",
    "_id": "1",
    "_version": 4,            //版本增加
    "result": "updated",      //显示的updated，表示做更新操作
    "_shards": {
        "total": 2,
        "successful": 1,
        "failed": 0
    },
    "_seq_no": 4,               //序列号改变
    "_primary_term": 1
}

此时不带_update等同于PUT操作

无论是PUT请求还是POST请求，更新同时增加属性，都直接往里面增加就行，但是带有_update时，还是必须带上doc

2.5删除文档&索引

DELETE customer/external/1
DELETE customer

删除文档

请求地址：http://主机IP:9200/customer/external/1

删除成功时是，效果如下：

此时再查询时：

删除索引：

请求地址：http://主机IP:9200/customer

再次查询时：

3.检索

3.1search Api

ES支持两种基本方式检索；

通过REST request uri 发送搜索参数（uri +检索参数）；
通过REST request body 来发送它们（uri+请求体）；

uri +检索参数

uri+请求体进行检索

Postman不支持此操作，所以用

http://主机IP:5601/app/kibana#/dev_tools/console方式请求

GET /bank/_search
{
  "query": { "match_all": {} },
  "sort": [
    { "account_number": "asc" },
    {"balance":"desc"}
  ]
}

3.2Query DSL

3.2.1基本语法格式

Elasticsearch提供了一个可以执行查询的Json风格的DSL。这个被称为Query DSL，该查询语言非常全面。

一个查询语句的典型结构

QUERY_NAME:{
   ARGUMENT:VALUE,
   ARGUMENT:VALUE,...
}

如果针对于某个字段，那么它的结构如下：

{
  QUERY_NAME:{
     FIELD_NAME:{
       ARGUMENT:VALUE,
       ARGUMENT:VALUE,...
      }   
   }
}

GET bank/_search
{
  "query": {
    "match_all": {}
  },
  "from": 0,
  "size": 5,
  "sort": [
    {
      "account_number": {
        "order": "desc"
      }
    }
  ]
}

query定义如何查询；

match_all查询类型【代表查询所有的所有】，es中可以在query中组合非常多的查询类型完成复杂查询；
除了query参数之外，我们可也传递其他的参数以改变查询结果，如sort，size；
from+size限定，完成分页功能；
sort排序，多字段排序，会在前序字段相等时后续字段内部排序，否则以前序为准；

3.2.2返回部分字段

GET bank/_search
{
  "query": {
    "match_all": {}
  },
  "from": 0,
  "size": 5,
  "sort": [
    {
      "account_number": {
        "order": "desc"
      }
    }
  ],
  "_source": ["balance","firstname"]
}

3.2.3 match匹配查询

基本类型（非字符串），精确控制

GET bank/_search
{
  "query": {
    "match": {
      "account_number": "20"
    }
  }
}

match返回account_number=20的数据。

字符串，全文检索，模糊检索

GET bank/_search
{
  "query": {
    "match": {
      "address": "kings"
    }
  }
}

全文检索，最终会按照评分进行排序，会对检索条件进行分词匹配。

3.2.4 match_phrase [短句匹配]

将需要匹配的值当成一整个短句（不分词）进行检索

GET bank/_search
{
  "query": {
    "match_phrase": {
      "address": "mill road"
    }
  }
}

查处address中包含mill_road的所有记录，并给出相关性得分。

注：match_phrase、match和match的keyword的区别

文本字段的匹配，使用keyword，匹配的条件就是要显示字段的全部值，要进行精确匹配的。match_phrase是做短语匹配，只要文本中包含匹配条件，就能匹配到。

3.2.5 multi_math【多字段匹配】

GET bank/_search
{
  "query": {
    "multi_match": {
      "query": "mill",
      "fields": [
        "state",
        "address"
      ]
    }
  }
}

state或者address中包含mill，并且在查询过程中，会对于查询条件进行分词。

3.2.6 bool用来做复合查询

复合语句可以合并，任何其他查询语句，包括符合语句。这也就意味着，复合语句之间
可以互相嵌套，可以表达非常复杂的逻辑。

must：必须达到must所列举的所有条件

GET bank/_search
{
   "query":{
        "bool":{
             "must":[
              {"match":{"address":"mill"}},
              {"match":{"gender":"M"}}
             ]
         }
    }
}

must_not：必须不是指定的情况

GET bank/_search
{
    "query": {
        "bool": {
            "must": [
                {
                    "match": {
                        "gender": "M"
                    }
                },
                {
                    "match": {
                        "address": "mill"
                    }
                }
            ],
            "must_not": [
                {
                    "match": {
                        "age": "38"
                    }
                }
            ]
        }
    }
}

should：应该达到should列举的条件，如果到达会增加相关文档的评分，并不会改变查询的结果。如果query中只有should且只有一种匹配规则，那么should的条件就会被作为默认匹配条件二区改变查询结果。

GET bank/_search
{
  "query": {
    "bool": {
      "must": [
        {
          "match": {
            "gender": "M"
          }
        },
        {
          "match": {
            "address": "mill"
          }
        }
      ],
      "must_not": [
        {
          "match": {
            "age": "18"
          }
        }
      ],
      "should": [
        {
          "match": {
            "lastname": "Wallace"
          }
        }
      ]
    }
  }
}

能够看到相关度越高，得分也越高。

3.2.7 Filter【结果过滤】

并不是所有的查询都需要产生分数，特别是哪些仅用于filtering过滤的文档。为了不计算分数，ElasticSearch会自动检查场景并且优化查询的执行。

GET bank/_search
{
  "query": {
    "bool": {
      "must": [
        {
          "match": {
            "address": "mill"
          }
        }
      ],
      "filter": {
        "range": {
          "balance": {
            "gte": "10000",
            "lte": "20000"
          }
        }
      }
    }
  }
}

这里先是查询所有匹配address=mill的文档，然后再根据10000<=balance<=20000进行过滤查询结果，并不会计算相关性得分,能看到所有文档的 "_score" : 0.0。

3.2.8 term

和match一样。匹配某个属性的值。全文检索字段用match，其他非text字段匹配用term。

使用term匹配查询

GET bank/_search
{
  "query": {
    "term": {
      "address": "mill Road"
    }
  }
}

一条也没有匹配到，而更换为match匹配时，能够匹配到32个文档

也就是说，全文检索字段用match，其他非text字段匹配用term。

3.2.9 Aggregation（执行聚合）

聚合提供了从数据中分组和提取数据的能力。最简单的聚合方法大致等于SQL的Group by和SQL聚合函数。在ElasticSearch中，执行搜索返回this（命中结果），并且同时返回聚合结果，把以响应中的所有hits（命中结果）分隔开的能力。这是非常强大且有效的，你可以执行查询和多个聚合，并且在一次使用中得到各自的（任何一个的）返回结果，使用一次简洁和简化的API啦避免网络往返。

aggs：执行聚合。聚合语法如下：

"aggs":{
    "aggs_name这次聚合的名字，方便展示在结果集中":{
        "AGG_TYPE聚合的类型(avg,term,terms)":{}
     }
}，

例：搜索address中包含mill的所有人的年龄分布以及平均年龄，但不显示这些人的详情

GET bank/_search
{
  "query": {
    "match": {
      "address": "Mill"
    }
  },
  "aggs": {
    "ageAgg": {
      "terms": {
        "field": "age",
        "size": 10
      }
    },
    "ageAvg": {
      "avg": {
        "field": "age"
      }
    },
    "balanceAvg": {
      "avg": {
        "field": "balance"
      }
    }
  },
  ## 表示查处的值不显示 
  "size": 0
}

例：按照年龄聚合，并且求这些年龄段的这些人的平均薪资

GET bank/_search
{
  "query": {
    "match_all": {}
  },
  "aggs": {
    "ageAgg": {
      "terms": {
        "field": "age",
        "size": 100
      },
      "aggs": {
        "ageAvg": {
          "avg": {
            "field": "balance"
          }
        }
      }
    }
  },
  "size": 0
}

例：查出所有年龄分布，并且这些年龄段中M的平均薪资和F的平均薪资以及这个年龄段的总体平均薪资

GET bank/_search
{
  "query": {
    "match_all": {}
  },
  "aggs": {
    "ageAgg": {
      "terms": {
        "field": "age",
        "size": 100
      },
      "aggs": {
        "genderAgg": {
          "terms": {
            "field": "gender.keyword"
          },
          "aggs": {
            "balanceAvg": {
              "avg": {
                "field": "balance"
              }
            }
          }
        },
        "ageBalanceAvg": {
          "avg": {
            "field": "balance"
          }
        }
      }
    }
  },
  "size": 0
}

3.3 Mapping

3.3.1 创建映射:

创建索引并指定映射

PUT /my_index
{
  "mappings": {
    "properties": {
      "age": {
        "type": "integer"
      },
      "email": {
        "type": "keyword"
      },
      "name": {
        "type": "text"
      }
    }
  }
}

输出：

{
  "acknowledged" : true,
  "shards_acknowledged" : true,
  "index" : "my_index"
}

3.3.2 查看映射

GET /my_index

输出:

{
    "my_index" : {
        "aliases" : { },
        "mappings" : {
            "properties" : {
                "age" : {
                    "type" : "integer"
                },
                "email" : {
                    "type" : "keyword"
                },
                "employee-id" : {
                    "type" : "keyword",
                    "index" : false
                },
                "name" : {
                    "type" : "text"
                }
            }
        },
        "settings" : {
            "index" : {
                "creation_date" : "1588410780774",
                "number_of_shards" : "1",
                "number_of_replicas" : "1",
                "uuid" : "ua0lXhtkQCOmn7Kh3iUu0w",
                "version" : {
                    "created" : "7060299"
                },
                "provided_name" : "my_index"
            }
        }
    }
}

3.3.3 添加新的字段映射

PUT /my_index/_mapping
{
  "properties": {
    "employee-id": {
      "type": "keyword",
      "index": false
    }
  }
}

这里的 "index": false，表明新增的字段不能被检索，只是一个冗余字段。

3.3.4 更新映射

对于已经存在的字段映射，我们不能更新。更新必须创建新的索引，进行数据迁移。

3.3.5 数据迁移

先创建新的索引的正确映射。然后使用如下方式进行数据迁移。

此方法是6.0以后的迁移方法

POST _reindex [固定写法]
{
  "source":{
      "index":"twitter"
   },
  "dest":{
      "index":"new_twitters"
   }
}

将旧索引的type下的数据进行迁移:

不限于版本

POST _reindex [固定写法]
{
  "source":{
      "index":"twitter",
      "type":"twitter"
   },
  "dest":{
      "index":"new_twitters"
   }
}

例：

## 不用type，老的数据可以迁移过。
POST _reindex
{
  "source":{
      "index":"bank",
      "type":"account"
   },
  "dest":{
      "index":"newbank"
   }
}

3.4 分词

一个tokenizer（分词器）接收一个字符流，将之分割为独立的tokens（词元，通常是独立的单词），然后输出tokens流。

例如：whitespace tokenizer遇到空白字符时分割文本。它会将文本“Quick brown fox!”分割为[Quick,brown,fox!]。

该tokenizer（分词器）还负责记录各个terms(词条)的顺序或position位置（用于phrase短语和word proximity词近邻查询），以及term（词条）所代表的原始word（单词）的start（起始）和end（结束）的character offsets（字符串偏移量）（用于高亮显示搜索的内容）。

ElasticSearch提供了很多内置的分词器，可以用来构建custom analyzers（自定义分词器）。

3.4.1 安装ik分词器

所有的语言分词，默认使用的都是“Standard Analyzer”，但是这些分词器针对于中文的分词，并不友好。为此需要安装中文的分词器。

[root@hadoop-104 ~]# docker exec -it elasticsearch /bin/bash
[root@0adeb7852e00 elasticsearch]#

wget https://github.com/medcl/elasticsearch-analysis-ik/releases/download/v7.6.2/elasticsearch-analysis-ik-7.6.2.zip

[root@0adeb7852e00 elasticsearch]# pwd
/usr/share/elasticsearch
#下载ik7.6.2
[root@0adeb7852e00 elasticsearch]# wget https://github.com/medcl/elasticsearch-analysis-ik/releases/download/v7.6.2/elasticsearch-analysis-ik-7.6.2.zip

unzip 下载的文件

[root@0adeb7852e00 elasticsearch]# unzip elasticsearch-analysis-ik-7.6.2.zip -d ink
Archive:  elasticsearch-analysis-ik-7.6.2.zip
   creating: ik/config/
  inflating: ik/config/main.dic      
  inflating: ik/config/quantifier.dic  
  inflating: ik/config/extra_single_word_full.dic  
  inflating: ik/config/IKAnalyzer.cfg.xml  
  inflating: ik/config/surname.dic   
  inflating: ik/config/suffix.dic    
  inflating: ik/config/stopword.dic  
  inflating: ik/config/extra_main.dic  
  inflating: ik/config/extra_stopword.dic  
  inflating: ik/config/preposition.dic  
  inflating: ik/config/extra_single_word_low_freq.dic  
  inflating: ik/config/extra_single_word.dic  
  inflating: ik/elasticsearch-analysis-ik-7.6.2.jar  
  inflating: ik/httpclient-4.5.2.jar  
  inflating: ik/httpcore-4.4.4.jar   
  inflating: ik/commons-logging-1.2.jar  
  inflating: ik/commons-codec-1.9.jar  
  inflating: ik/plugin-descriptor.properties  
  inflating: ik/plugin-security.policy  
[root@0adeb7852e00 elasticsearch]#
#移动到plugins目录下
[root@0adeb7852e00 elasticsearch]# mv ik plugins/

rm -rf *.zip

[root@0adeb7852e00 elasticsearch]# rm -rf elasticsearch-analysis-ik-7.6.2.zip

3.4.2 测试分词器

默认

POST _analyze
{
  "analyzer": "standard",
  "text": "中软国际"
}

安装好ik分词器：

## 1
POST _analyze
{
  "analyzer": "ik_smart",
  "text": "中软国际"
}

## 2
GET _analyze
{
   "analyzer": "ik_max_word", 
   "text":"中软国际"
}

3.4.3 自定义词库

修改/usr/share/elasticsearch/plugins/ik/config中的IKAnalyzer.cfg.xml
/usr/share/elasticsearch/plugins/ik/config

<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE properties SYSTEM "http://java.sun.com/dtd/properties.dtd">
<properties>
    <comment>IK Analyzer 扩展配置</comment>
    <!--用户可以在这里配置自己的扩展字典 -->
    <entry key="ext_dict"></entry>
     <!--用户可以在这里配置自己的扩展停止词字典-->
    <entry key="ext_stopwords"></entry>
    <!--用户可以在这里配置远程扩展字典 -->
    <entry key="remote_ext_dict">http://192.168.137.14/es/fenci.txt</entry> 
    <!--用户可以在这里配置远程扩展停止词字典-->
    <!-- <entry key="remote_ext_stopwords">words_location</entry> -->
</properties>

修改完成后，需要重启elasticsearch容器，否则修改不生效。

更新完成后，es只会对于新增的数据用更新分词。历史数据是不会重新分词的。如果想要历史数据重新分词，需要执行。

http://主机IP/es/fenci.txt，这个是nginx上资源的访问路径

在运行下面实例之前，需要安装nginx（安装方法见安装nginx），然后创建“fenci.txt”文件，内容如下：

echo "樱桃萨其马，带你甜蜜入夏" > /mydata/nginx/html/fenci.txt

测试效果：

GET my_index/_analyze
{
   "analyzer": "ik_max_word", 
   "text":"樱桃萨其马，带你甜蜜入夏"
}

输出结果：

{
  "tokens" : [
    {
      "token" : "樱桃",
      "start_offset" : 0,
      "end_offset" : 2,
      "type" : "CN_WORD",
      "position" : 0
    },
    {
      "token" : "萨其马",
      "start_offset" : 2,
      "end_offset" : 5,
      "type" : "CN_WORD",
      "position" : 1
    },
    {
      "token" : "带你",
      "start_offset" : 6,
      "end_offset" : 8,
      "type" : "CN_WORD",
      "position" : 2
    },
    {
      "token" : "甜蜜",
      "start_offset" : 8,
      "end_offset" : 10,
      "type" : "CN_WORD",
      "position" : 3
    },
    {
      "token" : "入夏",
      "start_offset" : 10,
      "end_offset" : 12,
      "type" : "CN_WORD",
      "position" : 4
    }
  ]
}

4.ElasticSearch -Rest-Client

4.1 9300: TCP

spring-data-elasticsearch:transport-api.jar;
- springboot版本不同，ransport-api.jar不同，不能适配es版本
- 7.x已经不建议使用，8以后就要废弃

4.2 9200: HTTP

jestClient: 非官方，更新慢；
RestTemplate：模拟HTTP请求，ES很多操作需要自己封装，麻烦；
HttpClient：同上；
Elasticsearch-Rest-Client：官方RestClient，封装了ES操作，API层次分明，上手简单；
最终选择Elasticsearch-Rest-Client（elasticsearch-rest-high-level-client）；