ElasticSearch 文本分析

news/2024/7/7 6:40:46 标签: elasticsearch, android, 大数据

在这里插入图片描述

文本分析的原理

在这里插入图片描述
分析器

类别类别名介绍
Standard Analyzerstandard标准分析器,按照 Unicode 文本分割算法切分单词,删除大多数标点符号并将单词转为小写形式,支持过滤停用词
Simple Analyzersimple简单分析器,在非字母的地方把单词切分开并将单词转为小写形式
Whitespace Analyzerwhitespace空格分析器,遇到空格就切分字符,但不改变每个字符的内容
POST _analyze
{
  "analyzer": "whitespace",
  "text":     "The quick brown fox."
}

字符过滤器

类别类别名介绍
HTML Strip Character Filterhtml_strip去掉文本中的html标签
Mapping Character Filtermapping根据提供的字段映射,把文本中的字符转换为映射的字符
Pattern Replace Character Filterpattern_replace根据指定的正则表达式把匹配的文本转换为指定的字符串
GET /_analyze
{
  "tokenizer": "keyword",
  "char_filter": [
    "html_strip"
  ],
  "text": "<p>I&apos;m so <b>happy</b>!</p>"
}

过滤后的结果为

I'm so happy!

分词器

类别类别名介绍
Standard Tokenizerstandard标准分词器,标准分析器采用的分词器,删除大多数标点符号,把文本切分为独立单词
Letter Tokenizerletter字母分词器,在非字母的地方把单词切分开,非字母字符会被丢弃
Lowercase Tokenizerlowercase小写分词器,在字母分词器的基础上把大写字母转为小写字母,
Whitespace Tokenizerwhitespace空格分词器,是空格分析器的组成部分,在空格处把文本切分开并保持文本内容不变
Keyword tokenizerkeyword将输入的整个文本当作一个词汇单元,不对文本进行拆分或处理
POST _analyze
{
  "tokenizer": "lowercase",
  "text": "The 2 QUICK Brown-Foxes"
}
[the, quick, brown, foxes]

分词过滤器

类别类别名介绍
Stop token filterstop用于去除文本中常见但对分析无关紧要的停用词,比如 and that then
Length token filterlength过滤掉太短或者太长的词汇
Stemmer token filterstemmer把每个分词转化为对应的原型(例如去掉,复数,时态等)
GET _analyze
{
  "tokenizer": "standard",
  "filter": [ "stemmer" ],
  "text": "the foxes jumping quickly"
}

过滤后的结果为

[the, fox, jump, quickli]

自定义分析器

自定义分析器可以用到的参数如下

参数名解释
type分析器类型,对于自定义分析器,可以使用custom 或忽略此参数
tokenizer内置的或定制的分词器,必须的
char_filter可选的内置的或定制的字符过滤器数组
filter可选的内置的或定制的分词过滤器数组

参考博客

[1]


http://www.niftyadmin.cn/n/5287533.html

相关文章

超纯水抛光树脂:光伏行业新技术应用

在清洁能源的领域中&#xff0c;高效太阳能电池&#xff0c;尤其是单晶硅电池&#xff0c;正日益受到重视。这些电池不仅转换效率高&#xff0c;而且耐用性强。然而&#xff0c;它们的制造过程对水质有着极高的要求&#xff0c;这就引入了超纯水的重要性。那么&#xff0c;超纯…

IP地址:遏制网络水军的关键突破口

随着互联网的迅猛发展&#xff0c;网络水军这一非法群体逐渐浮现。他们利用虚假信息、恶意评论等手段&#xff0c;对个人、企业甚至国家造成严重损害。近期&#xff0c;在政府相关部门的大力整治下&#xff0c;网络水军现象得到有效遏制。通过公示IP地址、技术手段封锁以及强化…

stm32 pwm输出

PWM 技术原理 CUBEMX PWM配置 pwm初始化 MX_TIM2_Init(); HAL_TIM_PWM_Start(&htim2, TIM_CHANNEL_4);设置pwm //pwmVal 0 ~ 1000 __HAL_TIM_SetCompare(&htim2, TIM_CHANNEL_4, pwmVal);

RS®FSW 信号与频谱分析仪

R&SFSW 信号与频谱分析仪 简述&#xff1a; R&SFSW 信号与频谱分析仪高性能 R&SFSW 信号与频谱分析仪可用于完成严苛任务。它具备较高的内部分析带宽&#xff0c;可对宽带组件和通信系统进行特征校准。分析仪具备出色的相位噪声&#xff0c;有助于开发适用于雷达…

Java开发框架和中间件面试题(5)

44.Tomcat一个请求的处理流程&#xff1f; 假设来自客户的请求为&#xff1a; http&#xff1a;//localhost&#xff1a;8080/test/index.jsp请求被发送到本机端口8080&#xff0c;被在那里侦听Copote HTTP/1.1 Connector,然后 1.Connector把该请求交给它所在的Service的Engi…

【Python】进程和多进程的使用

原文作者&#xff1a;我辈李想 版权声明&#xff1a;文章原创&#xff0c;转载时请务必加上原文超链接、作者信息和本声明。 文章目录 前言一、进程1.概念理解2.进程的启动3.python进程 二、多进程 前言 进程是指计算机中正在运行的程序实例。 进程可以是操作系统分配的&#…

基于web的图书管理系统的设计与实现论文

摘 要 现代经济快节奏发展以及不断完善升级的信息化技术&#xff0c;让传统数据信息的管理升级为软件存储&#xff0c;归纳&#xff0c;集中处理数据信息的管理方式。本图书管理系统就是在这样的大环境下诞生&#xff0c;其可以帮助管理者在短时间内处理完毕庞大的数据信息&am…