Spring Cloud的ElasticSearch的进阶学习

news/2024/7/7 5:54:25 标签: spring cloud, elasticsearch, 学习

目录

数据聚合

Bucket示例

Metric示例

RestAPI实现聚合

自动补全

使用拼音分词

自定义分词器

实现自动补全

RestAPI实现自动补全功能

数据同步

同步调用

异步通知

监听binlog


数据聚合

聚合可以实现对文档数据的统计、分析、运算。聚合常见的有三类:

  • 桶(Bucket)聚合:用来对文档做分组
    • TermAggregation:按照文档字段值分组
    • Date Histogram:按照日期阶梯分组,例如一周为一组,或者一月为一组
  • 度量 (Metric)聚合:用以计算一些值,比如: 最大值、最小值、平均值等
    • Avg:求平均值
    • Max:求最大值
    • Min:求最小值
    • Stats:同时求成max、min、avg、sum等
  • 管道(pipeline)聚合:其他聚合的结果为基础做聚合

需要注意的是,聚合的数据不能被分词。

Bucket示例

根据品牌名称做聚合

#聚合功能
GET /hotel/_search
{
  "size": 0,// 展示的文档个数
  "aggs": {// 聚合
    "brandAgg": { //聚合名称
      "terms": { //聚合方式
        "field": "brand", 
        "order": {
            "_count": "desc"
        },
        "size": 10 //结果展示
      }
    }
  }
}

默认情况加Bucket聚合是对所有文档进行聚合,这样对内存消耗较大,因此我们可以通过query指定聚合范围

GET /hotel/_search
{
  "query": {
    "range": {
      "price": {
        "gte": 100,
        "lte": 200
      }
    }
  }, 
  "size": 0,
  "aggs": {
    "brandAgg": {
      "terms": {
        "field": "brand",
        "size": 10
      }
    }
  }
}

Metric示例

对每个品牌的评分进行聚合。

GET /hotel/_search
{
  "size": 0,
  "aggs": {
    "brandAggs": {
      "terms": {
        "field": "brand",
        "size": 10
      },
      "aggs": {
        "score_stats": {
          "stats": {
            "field": "score"
          }
        }
      }
    }
  }
}

如果需要对评分做一个排序,实际上是对桶聚合排序

GET /hotel/_search
{
  "size": 0,
  "aggs": {
    "brandAggs": {
      "terms": {
        "field": "brand",
        "size": 10,
        "order": {
          "score_stats.avg": "desc"
        }
      },
      "aggs": {
        "score_stats": {
          "stats": {
            "field": "score"
          }
        }
      }
    }
  }
}

RestAPI实现聚合

    @Test
    public void testAggregation() throws Exception {
        SearchRequest request = new SearchRequest("hotel");
        //不需要接收文档
        request.source().size(0);
        request.source().aggregation(
                //聚合名称
                AggregationBuilders.terms("brandAgg")
                        //聚合字段
                        .field("brand")
                        //取值
                        .size(10));
        SearchResponse response = client.search(request, RequestOptions.DEFAULT);
    	//结果解析
        Aggregations aggregations = response.getAggregations();
        Terms brand_agg = aggregations.get("brandAgg");
        List<? extends Terms.Bucket> buckets = brand_agg.getBuckets();
        for (Terms.Bucket bucket : buckets) {
            String brand = bucket.getKeyAsString();
            System.out.println(brand);
        }
    }

解析结果根据ES的返回内容依次获取就好

自动补全

所谓自动补全,是指输入部分内容会展示对应的相关内容

使用拼音分词

如果要实现根据字母补全内容,那么就需要对文档进行拼音分词。下载对应版本的拼音分词插件

GitHub - medcl/elasticsearch-analysis-pinyin: This Pinyin Analysis plugin is used to do conversion between Chinese characters and Pinyin.

并放入es的插件目录下

GET /_analyze
{
  "text": ["我正在学分布式搜索"],
  "analyzer": "pinyin"
}

默认的拼音分词器只会单个汉字的拼音与整句的拼音首字母分词。并不能满足我们的业务需求。因此我们需要自定义分词器。

自定义分词器

elasticsearch中分词器的组成包含三部分:

  • character filters:在tokenizer之前对文本进行处理。例如删除字符、替换字符
  • tokenizer:将文本按照一定的规则切割成词条 (term)。例如keyword,就是不分词;还有ik_smart。
  • tokenizer filter:将tokenizer输出的词条做进一步处理。例如大小写转换、同义词处理、拼音处理等

自定义的分词器只能在创建索引库的时候指定

PUT /test
{
    "settings": {
        "analysis":{
            "analyzer": { // 自定义分词器
                "my_analyzer": {// 分词器名称
                    "tokenizer":"ik_max_word",
                    "filter":"py"
                }
            },
            "filter": { // 自定义tokenizer filter
                "py":{ // 过滤器名称
                    "type":"pinyin",// 过滤器类型,这里是pinyin
                    "keep_full_pinyin": false,
                    "keep_joined_full_pinyin": true,
                    "keep_original": true,
                    "limit_first_letter_length": 16,
                    "remove_duplicated_term" : true,
                    "none_chinese_pinyin_tokenize":false
                }
            }
        }
    }
}

拼音分词器只能创建倒排索引的时候使用而不适合在搜索的时候使用。

因此在创建索引库的时候,可以指定搜索分词器

PUT /test
{
    "settings": {
        "analysis":{
            "analyzer": { // 自定义分词器
                "my_analyzer": {// 分词器名称
                    "tokenizer":"ik_max_word",
                    "filter":"py"
                }
            },
            "filter": { // 自定义tokenizer filter
                "py":{ // 过滤器名称
                    //.....
                }
            }
        }
    },
    "mappings":{
        "properties": {
            "name" :{
                "type": "text",
                "analyzer":"my_analyzer",
                "search_analyzer": "ik_smart"
            }
        }
    }
}

实现自动补全

ES提供completion Suggester查询来实现自动补全功能。这个查询会匹配以用户输入内容开头的词条并返回。为了补全查询效率,对文档中字段有一定约束

  • 参与补全的必须是completion类型
  • 字段的内容一般是用来补全的多个词条形成的数组
PUT /test
{
	"mappings":{
        "properties":{
            "title":{
                "type":"completion"
            }
        }
    }
}

POST /test/_doc
{
	"title":["Sony","WH-1000XM3"]
}

POST /test/_doc
{
	"title":["SK-II","PITERA"]
}

POST /test/_doc
{
	"title":["Niotendo","switch"]
}
# 自动补全查询
GET /test/_search
{
  "suggest": {
    "title_suggest":{
      "text":"s", 
      "completion":{
        "field":"title",
        "skip_duplicates": true,
        "size": 10
      }
    }
  }
}

RestAPI实现自动补全功能

    @Test
    public void testSuggest() throws Exception {
        SearchRequest request = new SearchRequest("hotel");
        request.source().suggest(new SuggestBuilder().addSuggestion(
                "suggestions",//自定义,后面解析响应的时候也输入这个值就好
                SuggestBuilders.completionSuggestion("suggestion")
                        .prefix("bj")
                        .skipDuplicates(true)
                        .size(10)
        ));
        SearchResponse response = client.search(request, RequestOptions.DEFAULT);
        CompletionSuggestion suggestions = response.getSuggest().getSuggestion("suggestions");
        for (CompletionSuggestion.Entry.Option option : suggestions.getOptions()) {
            String test = option.getText().string();
            System.out.println(test);
        }
    }

数据同步

ES一般和数据库联合使用,ES的数据来源于数据库,但是数据库的内容并不是一成不变的,因此ES与数据库就存在了数据同步问题。

同步调用

当客户端发起请求后,首先数据库进行修改,修改完成后去调用搜索服务的更新ES接口,等ES更新完成后返回结果给保存数据库的服务,再返回给客户端

优点:实现简单

缺点:

  • 代码耦合,在更新完数据库后需要添加调用ES更新接口的代码
  • 耗时增加,性能下降

异步通知

优点:耦合度低,实现难度一般

缺点:依赖MQ的可靠性

监听binlog

数据库可以开启binlog功能。当数据库发生CURD时,binlog会发生改变,由canal通知ES服务修改ES数据。

优点:完全解耦

缺点:开启binlog增加数据库负担。实现复杂度高


http://www.niftyadmin.cn/n/5141194.html

相关文章

遥遥领先一个量级,平头哥发布首颗SSD主控芯片镇岳510

11月1日&#xff0c;在2023云栖大会上&#xff0c;阿里巴巴平头哥发布旗下首颗SSD主控芯片镇岳510&#xff0c;该芯片为云计算场景深度定制&#xff0c;实现4μs超低时延&#xff0c;比业界主流降低30%以上&#xff0c;误码率低至10^-18&#xff0c;比业内标杆领先一个数量级。…

断货、售罄,双十一首日西圣Olite开放式耳机杀疯了!

西圣Olite首战双十一&#xff0c;仅需一天&#xff0c;就已经“售罄缺货”。作为国内深耕智能声学领域多年的 xisem西圣科技&#xff0c;在10月最新推出的一款Olite开放式耳机&#xff0c;售价仅为199&#xff0c;自问世之初就迅速引起了广泛的关注和需求&#xff0c;只因超高性…

测试实施运维必备知识点

Linux常用命令 ip addr 查看ip地址信息 ping 测试物理机是否联网 dhclient 让CentOS 7自动获取一个IP地址 vim 编辑纯文本文件 who 查看是否还有其他人在登录 find 在文件系统中搜索某文件 -name filename&#xff1a; 表示直接查找该文件名的文件 -type filetype&#xff1a;…

下载文件 IOS下H5打开文件流地址时提示下载文件而不是直接预览

function exportData(){$(".bj_black").show()$("#loding").show()const url "/physicalDetect/export?classId" $(#classId).val() "&lessonId" $(#lessonId).val(); //记得拼接参数const xhr new XMLHttpRequest();xhr.ope…

[MySQL]——SQL预编译、动态sql

键盘敲烂&#xff0c;年薪30万&#x1f308; 目录 一、SQL的预编译 &#x1f4d5;一条SQL语句的执行过程 &#x1f4d5;弊端 &#x1f4d5;预编译SQL的优势 &#x1f4d5;两种参数占位符 &#x1f4d5;小结 二、动态SQL &#x1f4d5;概念介绍&#xff1a; &#x1f4…

吴恩达怒斥AI阴谋、Hinton自证清白!Lecun掀起图灵奖大战、哈萨比斯进行回怼!美国AI顶流圈乱象纪实…

大家好&#xff0c;我是夕小瑶科技说编辑王二狗&#xff0c;最近AI圈大瓜不断&#xff0c;对此我表示吃的很是辛苦&#x1f62d; 所以求大家帮我吃一些 &#x1f64f; 别只让我一个人吃&#xff01; 就在前天&#xff0c;Yann LeCun作为图灵奖得主率先吵了起来&#xff0c;事情…

SQL——插入已经存在的数据

现在有一套ID为9003的高难度SQL试卷&#xff0c;时长为一个半小时&#xff0c;请你将 2021-01-01 00:00:00 作为发布时间插入到试题信息表examination_info&#xff08;其表结构如下图&#xff09;&#xff0c;不管该ID试卷是否存在&#xff0c;都要插入成功&#xff0c;请尝试…

Excel表格密码解密技巧:简单易懂,轻松查看数据。

您好&#xff01;如果您忘记了Excel表格的密码或想解除密码限制&#xff0c;您可以按照以下步骤进行操作&#xff1a;具体步骤如下&#xff1a;第一步&#xff0c;打开浏览器&#xff0c;百度搜索【密码帝官网】&#xff1b;第二步&#xff0c;点击“立即开始”&#xff0c;进入…