ElasticSearch之单值多字段查询以及multi match

写在前面

在这篇文章 我们看了使用dis_max查询来进行单值多字段场景下的查询,如下:

POST /blogs/_search
{
    "query": {
        "dis_max": {
            "queries": [
                {
                    "match": {
                        "title": "Brown fox"
                    }
                },
                {
                    "match": {
                        "body": "Brown fox"
                    }
                }
            ]
        }
    }
}

这里不知道你注意到没有,Brown fox我们重复写了N遍,即要查询的字段越多则重复写的次数也越多,想要解决这个问题,就可以使用本文要学习的multi_match了。

multi_match_24">1:multi_match的三种方式

1.1:best_field

这种方式使用每个文档中字段的最高得分作为最终得分进行匹配,这和dis max query 是一样的效果,如下的查询:

DELETE blogs
PUT /blogs/_doc/1
{
  "title": "Quick brown rabbits",
  "body": "Brown rabbits are commonly seen."
}

PUT /blogs/_doc/2
{
  "title": "Keeping pets healthy",
  "body": "My quick brown fox eats rabbits on a regular basis"
}

POST /blogs/_search
{
    "query": {
        "dis_max": {
            "tie_breaker": 0, 
            "queries": [
                {
                    "match": {
                        "title": "Brown fox"
                    }
                },
                {
                    "match": {
                        "body": "Brown fox"
                    }
                }
            ]
        }
    }
}

在这里插入图片描述
同样也可以使用multi_match的best_field来实现:

POST /blogs/_search
{
    "query": {
        "multi_match": {
            "query": "Brown fox",
            "type": "best_fields",
            "fields": [
                "title",
                "body"
            ],
            "tie_breaker": 0
        }
    }
}

在这里插入图片描述

1.2:most_field

这种方式是某个文档匹配的字段越多,则得分越高,如下:

POST news/_bulk
{"index": {"_id": 1}}
{"f1":"aa", "f2": "bb"}
{"index": {"_id": 2}}
{"f1":"aa", "f2": "bb", "f3": "cc"}
{"index": {"_id": 3}}
{"f1":"aa", "f2": "bb", "f3": "cc", "f4": "dd"}

POST /news/_search
{
    "query": {
        "multi_match": {
            "query": "aa bb cc dd",
            "type": "most_fields",
            "fields": [
                "f1",
                "f2",
                "f3",
                "f4"
            ]
        }
    }
}

在这里插入图片描述
可以看到匹配的fields越多则越靠前。

其他特殊的情况分析。

  • 如果没有任何匹配的field则不会匹配返回,如下:
    在这里插入图片描述
  • 如果是field匹配的field数完全相同,且匹配的term数相同,则得分完全相同,如下:
DELETE news/

POST news/_bulk
{"index": {"_id": 1}}
{"f1":"aa", "f2": "bb"}
{"index": {"_id": 2}}
{"f1":"aa", "f2": "bb"}


POST /news/_search
{
    "query": {
        "multi_match": {
            "query": "aa bb",
            "type": "most_fields",
            "fields": [
                "f1",
                "f2",
                "f3",
                "f4"
            ]
        }
    }
}

在这里插入图片描述

  • 如果field匹配的field数完全相同,匹配的term越多,则得分越高,如下:
DELETE news/

POST news/_bulk
{"index": {"_id": 1}}
{"f1":"aa", "f2": "bb"}
{"index": {"_id": 2}}
{"f1":"aa", "f2": "aa bb"}


POST /news/_search
{
    "query": {
        "multi_match": {
            "query": "aa bb",
            "type": "most_fields",
            "fields": [
                "f1",
                "f2",
                "f3",
                "f4"
            ]
        }
    }
}

在这里插入图片描述
即匹配的field数优先,field数相同则按照总得分排优先级。

1.3:cross_field

这种匹配方式是将查询的字段作为一个整体来进行查询,每个要查询的词项都需要在文档中存在,才会匹配成功,如果是不使用multi_matchcross field的话我们也可以使用copy_to的方式,来将要查询的字段全部copy_to到同一个字段中,然后对该段进行普通的查询,如下:

DELETE news/
PUT news
{
    "mappings": {
        "properties": {
            "f1": {
                "type": "text",
                "copy_to": "f_full"
            },
            "f2": {
                "type": "text",
                "copy_to": "f_full"
            },
            "f3": {
                "type": "text",
                "copy_to": "f_full"
            }
        }
    }
}

POST news/_bulk
{"index": {"_id": 1}}
{"f1":"aa", "f2": "bb"}
{"index": {"_id": 2}}
{"f1":"aa", "f2": "bb"}
{"index": {"_id": 3}}
{"f1":"aa", "f2": "bb", "f3": "cc"}

POST /news/_search
{
    "query": {
        "match": {
            "f_full": {
                "query": "aa bb cc",
                "operator": "and"
            }
        }
    }
}

在这里插入图片描述
查询的是在f_full中包含aa,bb,cc的文档,但是copy_to的方式有一个缺点就是,会增加磁盘的负担,如果是使用cross_field可以等效的解决这个问题,如下:

DELETE news/
PUT news
{
    "mappings": {
        "properties": {
            "f1": {
                "type": "text",
                "copy_to": "f_full"
            },
            "f2": {
                "type": "text",
                "copy_to": "f_full"
            },
            "f3": {
                "type": "text",
                "copy_to": "f_full"
            }
        }
    }
}

POST news/_bulk
{"index": {"_id": 1}}
{"f1":"aa", "f2": "bb"}
{"index": {"_id": 2}}
{"f1":"aa", "f2": "bb"}
{"index": {"_id": 3}}
{"f1":"aa", "f2": "bb", "f3": "cc"}

POST /news/_search
{
    "query": {
        "multi_match": {
            "query": "aa bb cc",
            "type": "cross_fields",
            "fields": [
                "f1",
                "f2",
                "f3"
            ],
            "operator": "and"
        }
    },
    "profile": "true"
}

在这里插入图片描述
通过profile可以看到查询的方式是+(f2:aa | f3:aa | f1:aa) +(f2:bb | f3:bb | f1:bb) +(f2:cc | f3:cc | f1:cc),因为operator是and,所以同sql(f1 like '%aa%' or f2 like '%aa%' or f3 like '%aa%') and (f1 like '%bb%' or f2 like '%bb%' or f3 like '%bb%') and (f1 like '%cc%' or f2 like '%cc%' or f3 like '%cc%'),同样的如果是将operator改为or,则同sql(f1 like '%aa%' or f2 like '%aa%' or f3 like '%aa%') or (f1 like '%bb%' or f2 like '%bb%' or f3 like '%bb%') or (f1 like '%cc%' or f2 like '%cc%' or f3 like '%cc%')

写在后面

参考文章列表

ES中的Multi_match深入解读:best_fields、most_fields、cross_fields用法一览 。


http://www.niftyadmin.cn/n/5395539.html

相关文章

Github 2024-02-26 开源项目日报Top10

根据Github Trendings的统计,今日(2024-02-26统计)共有10个项目上榜。根据开发语言中项目的数量,汇总情况如下: 开发语言项目数量Python项目4C项目1Go项目1TypeScript项目1HTML项目1Jupyter Notebook项目1Rust项目1Shell项目1JavaScript项目…

基于长短期神经网络的路径跟踪,基于长短期神经网络的路径预测

目录 背影 摘要 LSTM的基本定义 LSTM实现的步骤 基于长短期神经网络的路径跟踪,基于长短期神经网络的路径预测 MATALB代码:基于长短期神经网络的路径跟踪,基于长短期神经网络的路径预测(代码完整,数据齐全)资源-CSDN文库 https://download.csdn.net/download/abc9918351…

300分钟吃透分布式缓存-15讲:如何深入理解、应用及扩展 Twemproxy?

Twemproxy 架构及应用 Twemproxy 是 Twitter 的一个开源架构,它是一个分片资源访问的代理组件。如下图所示,它可以封装资源池的分布及 hash 规则,解决后端部分节点异常后的探测和重连问题,让 client 访问尽可能简单,同…

python 基础知识点(蓝桥杯python科目个人复习计划51)

今日复习计划:做复习题 例题1:大石头的搬运工 问题描述: 在一款名为“大石头的搬运工”的游戏中,玩家需要 操作一排n堆石头,进行n - 1轮游戏。 每一轮,玩家可以选择一堆石头,并将其移动到任…

架构设计实践:熟悉架构设计方法论,并动手绘制架构设计图

文章目录 一、架构设计要素1、架构设计目标2、架构设计模式(1)分而治之(2)迭代式设计 3、架构设计的输入(1)概览(2)功能需求 - WH分析法(3)质量 - “怎么”分…

嵌入式 Linux 下的 LVGL 移植

目录 准备创建工程修改配置修改 lv_drv_conf.h修改 lv_conf.h修改 main.c修改 Makefile 编译运行更多内容 LVGL(Light and Versatile Graphics Library,轻量级通用图形库)是一个轻量化的、开源的、在嵌入式系统中广泛使用的图形库&#xff0c…

Linux系统运维命令:终止监听在 TCP端口80上的所有进程(使用lsof,grep,awk组合命令, 终止监听在 TCP某个端口上的所有进程)

目 录 一、需求 二、解决方法 1、解决思路 2、命令 三、实例演示和命令解释 1、实例演示 (1)查看目前有哪些在TCP端口80监听的进程 (2)、使用命令 (3)、查看效果 2、命令解…

VBA将当前打开的表格生成PDF图片

前言 VBA将当前的表格存储成PDF文件进行存储 代码 Sub ExportToPDF()Dim FilePath As StringDim FileName As StringDim ExportRange As Range 设置导出文件路径及名称FilePath "D:\Users\"FileName "ExportedPDF" 设置导出区域范围Set ExportRange Ra…