es-ik分词器的拓展和停用字典

目录

一、分词器


一、分词器

  • 分词器的作用是什么?

        创建倒排索引时对文档分词
        用户搜索时,对输入的内容分词

  • IK分词器有几种模式?

        ik_smart:智能切分,粗粒度
        ik_max_word:最细切分,细粒度

  • IK分词器如何拓展词条?如何停用词条?

        利用config目录的IkAnalyzer.cfg.xml文件添加拓展词典和停用词典
        在词典中添加拓展词条或者停用词条

ik分词器-拓展词库

要拓展ik分词器的词库,只需要修改一个ik分词器目录中的config目录中的IkAnalyzer.cfq.xml文件

<?xml version="1." encoding="UTF-8"?>

<!DOCTYPE properties SYSTEM "http://java.sun.com/dtd/properties.dtd">
<properties>

        <comment>IK Analyzer 扩展配置</comment>

        <!--用户可以在这里配置自己的扩展字典 *** 添加扩展词典-->

        <entry key="ext_dict">ext.dic</entry>

</properties> 

ik分词器-停用词库

要禁用某些敏感词条,只需要修改一个ik分词器目录中的config目录中的IkAnalyzer.cfq.xml文件

<?xml version="1." encoding="UTF-8"?>

<!DOCTYPE properties SYSTEM "http://javasun.com/dtd/properties.dtd">

<properties>
        <comment>IK Analyzer 扩展配置</comment>

        <!--用户可以在这里配置自己的扩展字典-->

        <entry key="ext_dict">ext.dic</entry>

        <!--用户可以在这里配置自己的扩展停止词字典 *** 添加停用词词典-->

        <entry key="ext_stopwords">stopword.dic</entry>

</properties> 

 二、分词器字典的扩展与停用

 2.1 打开IkAnalyzer.cfq.xml文件

添加扩展词字典、停止词字典

2.2 在同级目录下新建 ext.dic 文件(扩展词)
 2.3 在同级目录下找到 stopword.dic 文件(禁用词)并编辑,用于禁用分词

2.4 重启即可完成 

http://www.niftyadmin.cn/n/5294508.html

相关文章

算法刷题:最大异或对(Trie树扩展)、食物链(并查集扩展)

目录 引言一、最大异或对&#xff08;Trie树扩展&#xff09;1.题目描述2.解题思路3.代码实现4.测试 二、食物链&#xff08;并查集扩展&#xff09;1.题目描述2.解题思路3.代码实现4.测试 引言 这两个扩展题能够让我们更加的熟悉Trie树和并查集的使用&#xff0c;这两道题可以…

2012年第一届数学建模国际赛小美赛B题大规模灭绝尚未到来解题全过程文档及程序

2012年第一届数学建模国际赛小美赛 B题 大规模灭绝尚未到来 原题再现&#xff1a; 亚马逊是地球上现存最大的雨林&#xff0c;比地球上任何地方都有更多的野生动物。它位于南美洲大陆的北侧&#xff0c;共有9个国家&#xff1a;巴西、玻利维亚、厄瓜多尔、秘鲁、哥伦比亚、委…

SpringBoot 3.2.0 基于Spring Security+JWT实现动态鉴权

依赖版本 JDK 17 Spring Boot 3.2.0 Spring Security 6.2.0 工程源码&#xff1a;Gitee 为了能够不需要额外配置就能启动项目&#xff0c;看到配置效果。用例采用模拟数据&#xff0c;可自行修改为对应的ORM操作 编写Spring Security基础配置 导入依赖 <properties>&l…

uniapp多级动态表单规则

最近有个新的业务、主要涉及多层级的动态表单提交&#xff0c;其中又涉及很多类型&#xff0c;踩了很多坑之后&#xff0c;终于研发完毕。 传来的数据格式处理 传来的数据格式涉及比较多的内容&#xff0c;以下举例一个&#xff0c;涉及到规则的填写 规则写法有两种&#xff…

STL——遍历算法

1.for_each 函数原型&#xff1a; for_each(iterator beg, iterator end, _func);——// 遍历算法 遍历容器元素&#xff1b; beg 开始迭代器&#xff1b;end 结束迭代器&#xff1b; _func 函数或者函数对象 #include<iostream> using namespace std; #include<ve…

AIGC系统ChatGPT系统源码,Midjourney绘画,GPT语音对话+ChatFile文档对话总结+DALL-E3文生图+思维导图一站式解决方案

一、前言 SparkAi创作系统是基于ChatGPT进行开发的Ai智能问答系统和Midjourney绘画系统&#xff0c;支持OpenAI-GPT全模型国内AI全模型。本期针对源码系统整体测试下来非常完美&#xff0c;可以说SparkAi是目前国内一款的ChatGPT对接OpenAI软件系统。那么如何搭建部署AI创作Ch…

oracle学习(5)

数据处理 SQL语言的类型&#xff1a; 1. 数据库中&#xff0c;称呼增删改查&#xff0c;为DML语句。(Data Manipulation Language 数据操纵语言)&#xff0c;就是指代&#xff1a; insert、update、delete、select这四个操作。 2. DDL语句。(Data Definition Language 数据…

【uniapp】Uniapp cli 自动化打包脚本实现

一、前言 通常使用uniapp开发app时&#xff0c;大多数会使用项目的云服务打包&#xff0c;否则的话再借助原生会变得极其复杂&#xff0c;还要去安装对应大内存的环境。如果恰好此时&#xff0c;你有一个需求是&#xff0c;可以随意的更换logo和封面、标题切换成另外一个app&a…