es倒排索引以及分词

news/2024/7/7 6:36:01 标签: elasticsearch, 大数据, 搜索引擎

单词词典(Term Dictionary)是倒排索引的重要组成记录所有文档的单词,一般都比较大
记录单词到倒排排列表的关联信息

倒排列表(Posting List)记录了单词对应的文档集合,由倒排索项( Posting )组成倒排索项( Posting)主要包含如下信息:
文档Id,用于获取原始信息
单词频率(TF Term Frequency),记录该单词在该文档中的出现次数,用于后续相关性算分
位置(Position),记录单词在文档中的分词位置(多个),用于做词语搜索( Phrase Query )
偏移(Offset),记录单词在文档的开始和结束位置,用于做高亮显示

分词器:

分词器是es中专门处理分词的组件,英文为Analyzer,它的组成如下
Character Filters
针对原始文本进行处理,比如去除 html特殊标记符

Tokenizer
将原始文本按照一定规则切分为单词
Token Filters
针对 tokenizer 处理的单词就行再加工,比如转小写、删除或新增等处理

es 自带如下的分词器Standard、Simple、Whitespace、Stop、Keyword、Pattern、Language

Tokenizer
将原始文本按照一定规则切分为单词( term or token )
自带的如下
standard 按照单词进行分割
 letter 按照非字符类进行分割
whitespace 按照空格进行分割
UAX URL Email 按照 standard 分割,但不会分割邮箱和 url-

NGram 和 Edge NGram 连词分割
Path Hierarchy按照文件路径进行切割

Token Filters
对于 tokenizer 输出的单词( term )进行增加删除、修改等操作
自带的如下
- lowercase 将所有 term 转换为小写
- stop 删除 stop words
- NGram 和Edge NGram 连词分割
- Synonym添加近义词的term

分词会在如下两个时机使用
创建或更新文档时(Index Time),会对相应的文档进行分词处理查询时(Search Time),会对查询语句进行分词


http://www.niftyadmin.cn/n/5280423.html

相关文章

JNI学习(二)

静态注册 接着上篇博客学习 JNI函数 JNIEXPORT void JNICALL Java_com_example_jnidemo_TextDemo_setText(JNIEnv *env, jobject this, jstring string){ __android_log_print(ANDROID_LOG_ERROR, "test", "invoke set from C\n");char* str (char*)(*e…

【c++】 error: invalid conversion from ‘int‘ to ‘enumType‘ [-fpermissive]解决方案

问题 进行枚举之间加法运算时&#xff0c;直接输出结果正常&#xff0c;但赋值后进行输出报错。 示例如下&#xff1a; typedef enum _eNo{NONE 0,ONE 1,TWO 2,THREE 3 }NO;NO no1, no2;no1 ONE;no2 TWO;// NO no3 no1 no2;qDebug().noquote() << no1 no2;输出…

如何开发一套家政预约小程序,家政系统有哪些功能?

家政服务小程序保洁上门预约维修 同城师傅入驻抢单派单平台开发 家政保洁预约小程序的功能与特点&#xff1b; 一、功能介绍 1. 小程序与公众号无缝对接&#xff0c;支持员工预约、项目预约两种方式&#xff0c;用户可随时在线预约&#xff0c;享受便捷服务。 2. 商家在预约小程…

用水用电用燃气PSD大屏文件,电力行业可视化大数据(供水供电可视化管理后台资料)

通过对水、电、燃气等能源的使用情况进行统计和分析&#xff0c;可以有效地预测能源需求&#xff0c;为企业的能源管理提供决策依据。现分享大屏燃气大数据可视化平台、电力行业可视化大数据展示平台、大工商业用气快速报告、供水供电可视化管理后台等大屏模版的Photoshop源文件…

【Java探索之旅】我与Java的初相识(二):程序结构与运行关系和JDK,JRE,JVM的关系

&#x1f3a5; 屿小夏 &#xff1a; 个人主页 &#x1f525;个人专栏 &#xff1a; Java入门到精通 &#x1f304; 莫道桑榆晚&#xff0c;为霞尚满天&#xff01; 文章目录 &#x1f4d1;前言一. 第一个Java程序1.1 main方法1.2 Java的程序结构 二. Java程序的运行三. JDK、JR…

SuperMap iServer发布的ArcGIS REST 地图服务如何通过ArcGIS API加载

作者&#xff1a;yx 文章目录 一、发布服务二、代码加载三、结果展示 一、发布服务 SuperMap iServer支持将地图发布为ArcGIS REST地图服务&#xff0c;您可以在发布服务时直接勾选ArcGIS REST地图服务&#xff0c;如下图所示&#xff1a; 也可以在已发布的地图服务中&#x…

基于DeepSpeed对 llama2-7b的LORA精调

DeepSpeed数据并行研究 1. 技术调研 a. DeepSpeed DeepSpeed是一个开源深度学习训练优化库&#xff0c;其中包含一个新的显存优化技术—— ZeRO&#xff08;零冗余优化器&#xff09;。该框架包含四个技术亮点&#xff1a; 用 3D 并行化实现万亿参数模型训练&#xff1a; D…

下一站,上岸@24考研er

时间过的好快&#xff0c; 考研倒计时①天 去年这个时候&#xff0c; 我应该也是充满未知地进入即将来到的考研初试 去年&#xff0c;这个时候&#xff0c;疫情&#x1f637;刚刚放开 许多人都&#x1f411;&#xff0c;发烧&#xff0c;可幸的是我受影响不大 &#x1f3…