返回顶部
首页 > 资讯 > 前端开发 > html >如何理解Elasticsearch倒排索引与分词
  • 661
分享到

如何理解Elasticsearch倒排索引与分词

2024-04-02 19:04:59 661人浏览 泡泡鱼
摘要

本篇内容主要讲解“如何理解elasticsearch倒排索引与分词”,感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷,实用性强。下面就让小编来带大家学习“如何理解Elasticsearch倒排索引与分词

本篇内容主要讲解“如何理解elasticsearch倒排索引与分词”,感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷,实用性强。下面就让小编来带大家学习“如何理解Elasticsearch倒排索引与分词”吧!

1 倒排索引

1.1 书的目录和索引

正排索引即目录页,根据页码去找内容

如何理解Elasticsearch倒排索引与分词

倒排索引即索引页,根据关键词去找对应页码

如何理解Elasticsearch倒排索引与分词

1.2 搜索引擎

  • 正排索引

        文档Id =》文档内容、单词的关联关系

  • 倒排索引

         单词 =》 文档Id的关联关系

  • 左:正排索引 =》 右:倒排索引

如何理解Elasticsearch倒排索引与分词

倒排索引查询流程

查询包含"搜索引擎”的文档

  1. 通过倒排索引获得"搜索引擎”对应的文档Id有1和3

  2. 通过正排索引查询1和3的完整内容

  3. 返回最终结果

1.3 倒排索引的组成

1.3.1 单词词典( Term Dictionary )

倒排索引的重要组成

  • 记录所有文档的单词 ,一般都比较大

  • 记录单词到倒排列表的关联信息

单词字典的实现一般是用B+ Tree ,示例如下

如何理解Elasticsearch倒排索引与分词

1.3.2 倒排列表( Posting List )

记录了单词对应的文档集合,由倒排索引项( Posting )组成。

倒排索引项( Posting )主要包含如下信息:

  • 文档Id ,用于获取原始信息

  • 单词频率( TF, Term Frequency ),记录该单词在该文档中的出现次数,用于后续相关性算分

  • 位置( Position)

  • 记录单词在文档中的分词位置(多个) , 用于做词语搜索( Phrase Query )

  • 偏移( Offset )

记录单词在文档的开始和结束位置,用于做高亮显示

案例

以搜索引擎为例

如何理解Elasticsearch倒排索引与分词

单词字典与倒排列表整合在一起的结构

如何理解Elasticsearch倒排索引与分词

ES存储的是JSON格式文档,其中包含多个字段,每个字段都有自己的倒排索引。

2 分词

将文本转换成一系列单词的过程,也称文本分析,在 ES 里称为 Analysis。

2.1 Analyzer-分词器

分词器是 ES 专门处理分词的组件,组成如下:

2.1.1 Character Filters

在Tokenizer之前对原始文本进行处理,比如增加、删除或替换字符等。

针对原始文本进行处理,比如去除 html 特殊标记符,自带的如下:

  • HTML Strip 去除 html 标签和转换 html 实体

  • Mapping 进行字符替换操作

  • Pattern Replace 进行正则匹配替换

会影响后续tokenizer解析的postion和offset信息

如何理解Elasticsearch倒排索引与分词

2.1.2 Tokenizer

将原始文本按照一定规则切分为单词,内置:

  • standard 按单词进行分割

  • letter 按非字符类进行分割

  • whitespace 按空格进行分割

  • UAX URL Email 按 standard 分割,但不会分割邮箱和 url

  • NGram 和 Edge NGram 连词分割

  • Path Hierachy 按文件路径进行分割

示例:

POST _analyze{ "tokenizer":"path_hierarchy", "text":"/one/two/three"}

如何理解Elasticsearch倒排索引与分词

如何理解Elasticsearch倒排索引与分词

2.1.3 Token Filters

针对 tokenizer 处理的单词进行再加工,比如转小写、删除或新增等处理,内置:

  • lowercase 将所有 term 转换为小写

  • stop 删除 stop Words

  • NGram 和 Edge NGram 连词分割

  • Synonym 添加近义词的 term

示例

// filter 可以有多个 POST _analyze {     "text":"a Hello world!",     "tokenizer":"standard",     "filter":[     "stop", // 把 a 去掉了     "lowercase",// 小写     {         "type":"ngram",         "min_gram":"4",         "max_gram":"4"     }     ] } // 得到 hell、ello、worl、orld

 如何理解Elasticsearch倒排索引与分词

分词器的调用顺序

如何理解Elasticsearch倒排索引与分词

3 Analyze API

ES 提供了一个测试分词的 api 接口,方便验证分词效果,endpoint 是 _analyze:

3.1 指定 analyzer

request

POST _analyze {     "analyzer":"standard", # 分词器     "text":" JavaEdge 公众号" # 测试文本 }

response

{   "tokens" : [     {       "token" : "java", # 分词结果       "start_offset" : 1, # 起始偏移       "end_offset" : 5, # 结束偏移       "type" : "<ALPHANUM>",       "position" : 0 # 分词位置     },     {       "token" : "edge",       "start_offset" : 6,       "end_offset" : 10,       "type" : "<ALPHANUM>",       "position" : 1     }   ] }

 如何理解Elasticsearch倒排索引与分词

3.2 指定索引中的字段

POST  测试的索引/_analyze   {     "field":"username", # 测试字段     "text":"hello world" # 测试文本 }

  如何理解Elasticsearch倒排索引与分词

3.3 自定义分词器

POST _analyze {     "tokenizer":"standard",     "filter":["lowercase"], # 自定义     "text":"hello world" }

之前的默认分词器大写

 如何理解Elasticsearch倒排索引与分词

自定义小写分词器

如何理解Elasticsearch倒排索引与分词

4 内置分词器

Standard Analyzer

默认分词器,按词切分,支持多语言,小写处理

Simple Analyzer

按照非字母切分,小写处理

如何理解Elasticsearch倒排索引与分词

Whitespace Analyzer

按空格切分

如何理解Elasticsearch倒排索引与分词

Stop Analyzer

Stop Word 指语气助词等修饰性词语,比如 the、an、的、这等等,特性是相比 Simple Analyzer 多 Stop Word  处理

  如何理解Elasticsearch倒排索引与分词

keyword Analyzer

不分词,直接将输入作为一个单词输出

 如何理解Elasticsearch倒排索引与分词

Pattern Analyzer

通过正则表达式自定义分隔符,默认 \W+,即非字词的符号为分隔符

如何理解Elasticsearch倒排索引与分词

Language Analyzer

提供了 30+ 常见语言的分词器

5 中文分词

将一个汉字序列切分成一个个单独的词。在英文中,单词之间是以空格作为自然分界符,汉语中词没有一个形式上的分界符。而且中文博大精深,上下文不同,分词结果也大不相同。

比如:

  • 乒乓球拍/卖/完了

  • 乒乓球/拍卖/完了

以下是 ES 中常见的分词系统:

IK

实现中英文单词的切分,可自定义词库,支持热更新分词词典

jieba

python 中最流行饿分词系统,支持分词和词性标注,支持繁体分词,自定义词典,并行分词

以下是基于自然语言处理的分词系统:

Hanlp

由一系列模型与算法组成的 java 工具包,支持索引分词、繁体分词、简单匹配分词(极速模式)、基于 CRF 模型的分词、N-  最短路径分词等,实现了不少经典分词方法。目标是普及自然语言处理在生产环境中的应用。

https://GitHub.com/hankcs/HaNLP

THULAC

  • THU Lexical Analyzer for Chinese ,由清华大学自然语言处理与社会人文计算

         实验室研制推出的一套中文词法分析工具包,具有中文分词和词性标注功能

          Https://github.com/microbun/elasticsearch-thulac-plugin

6 自定义分词器

当自带的分词无法满足需求时,可以自定义分词器,通过定义 Character Filters、Tokenizer、Token Filter  实现。自定义的分词需要在索引的配置中设定,示例如下所示:

自定义如下分词器

如何理解Elasticsearch倒排索引与分词
// 自定义分词器 PUT test_index_name {   "settings":{      "analysis":{       "analyzer":{         "my_customer_analyzer":{           "type":"custome",           "tokenizer":"standard",           "char_filter":["html_strip"],           "filter":["lowercase", "asciifolding"]         }       }     }   } }  // 测试自定义分词器效果: POST test_index/_analyze {   "tokenizer":"keyword",   "char_filter":["html_strip"],   "text":"Is this <b>a box</b>?" }  // 得到 is、this、a、box

7 分词使用说明

分词会在如下两个时机使用:

创建或者更新文档时(Index Time)

会对相应的文档进行分词处理

索引时分词是通过配置Index Mapping中每个字段的analyzer属性实现的。不指定分词时,使用默认standard。

查询时(Search Time)

会对查询语句进行分词。查询时分词的指定方式:

  • 查询的时候通过analyzer指定分词器

  • 通过index mapping设置 search_analyzer 实现

分词的最佳实践

  • 明确字段是否需要分词,不需要分词的字段就将 type 设置为 keyword,可以节省空间和提高写性能。

  • 善用 _analyze API,查看文档的具体分词结果

  • 多动手测试

到此,相信大家对“如何理解Elasticsearch倒排索引与分词”有了更深的了解,不妨来实际操作一番吧!这里是编程网网站,更多相关内容可以进入相关频道进行查询,关注我们,继续学习!

--结束END--

本文标题: 如何理解Elasticsearch倒排索引与分词

本文链接: https://lsjlt.com/news/84250.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

猜你喜欢
  • 如何理解Elasticsearch倒排索引与分词
    本篇内容主要讲解“如何理解Elasticsearch倒排索引与分词”,感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷,实用性强。下面就让小编来带大家学习“如何理解Elasticsearch倒排索引与分词...
    99+
    2024-04-02
  • 搜索一文入门ElasticSearch(节点分片CRUD倒排索引分词)
    目录ElasticSearch基本概念:索引、文档和REST ApiJson文档文档的元数据索引分布式系统的可用性和扩展性分布式特性节点分片查看集群的健康状况CRUD文档的CRUDC...
    99+
    2023-03-23
    ElasticSearch搜索入门 ElasticSearch搜索
  • ElasticSearch节点、分片、CRUD、倒排索引和分词源码分析
    这篇文章主要介绍了ElasticSearch节点、分片、CRUD、倒排索引和分词源码分析的相关知识,内容详细易懂,操作简单快捷,具有一定借鉴价值,相信大家阅读完这篇ElasticSearch节点、分片、CRUD、倒排索引和分词源码分析文章都...
    99+
    2023-07-05
  • 【漫画】ES原理 必知必会的倒排索引和分词
    倒排索引的初衷 倒排索引,它也是索引。索引,初衷都是为了快速检索到你要的数据。 我相信你一定知道mysql的索引,如果对某一个字段加了索引,一般来说查询该字段速度是可以有显著的提升。 每种数据库都有自己要解决的问题(或者说擅长...
    99+
    2018-07-11
    【漫画】ES原理 必知必会的倒排索引和分词
  • RiSearch PHP 如何解决中文分词与索引的关联问题
    引言:RiSearch是一款功能强大的PHP全文搜索引擎,能够高效地处理中文分词和索引问题。本文将介绍如何使用RiSearch解决中文分词与索引的关联问题,并提供具体的代码示例。一、中文分词中文分词是将连续的中文文本切分成一个个有意义的词语...
    99+
    2023-10-21
    PHP 索引 中文分词
  • elasticsearch无法创建索引如何解决
    当Elasticsearch无法创建索引时,可能有以下几种原因和解决方法:1. 索引已经存在:如果尝试创建一个已经存在的索引,Ela...
    99+
    2023-10-08
    elasticsearch
  • 如何理解Spring的Registrar倒排思想
    这篇文章主要介绍“如何理解Spring的Registrar倒排思想”,在日常操作中,相信很多人在如何理解Spring的Registrar倒排思想问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法,...
    99+
    2024-04-02
  • 详解Elasticsearch如何把一个索引变为只读
    目录正文设置为只读正文 将索引设置为只读可能听起来很奇怪,但在 Elasticsearch 中执行此类操作是可能的。想象一下这样一种情况,你特别需要限制对索引的写入操作,无论是维护...
    99+
    2023-02-06
    Elasticsearch索引变只读 Elasticsearch 索引
  • 如何理解MySQL索引原理
    本篇内容主要讲解“如何理解MySQL索引原理”,感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷,实用性强。下面就让小编来带大家学习“如何理解MySQL索引原理”吧!案例背景假设面试官问你:在电商平台的订...
    99+
    2024-04-02
  • 如何理解MySQL索引cardinalit
    本篇内容主要讲解“如何理解MySQL索引cardinalit”,感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷,实用性强。下面就让小编来带大家学习“如何理解MySQL索引cardinalit”吧!查看一...
    99+
    2024-04-02
  • 如何利用索引提升PHP与MySQL的排序和分组操作?
    索引是一种在数据库表中创建的数据结构,用来提高查询操作的效率。在PHP和MySQL中,索引可以在排序和分组操作中发挥重要作用,提升数据库查询的性能。本文将介绍如何利用索引来优化PHP与MySQL的排序和分组操作,并提供具体的代码示例。排序操...
    99+
    2023-10-21
    索引(Index) 排序(Sort) 分组(Group)
  • 如何深入理解MySQL索引
    这篇文章将为大家详细讲解有关如何深入理解MySQL索引,文章内容质量较高,因此小编分享给大家做个参考,希望大家阅读完这篇文章后对相关知识有一定的了解。前言当提到MySQL数据库的时候,我们的脑海里会想起几个...
    99+
    2024-04-02
  • 如何理解MySQL索引下推
    本篇内容主要讲解“如何理解MySQL索引下推”,感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷,实用性强。下面就让小编来带大家学习“如何理解MySQL索引下推”吧!- 思维导图 -回表操作对于数据库来说...
    99+
    2024-04-02
  • MongoDB的索引如何管理与维护
    MongoDB的索引管理与维护可以通过以下几种方式进行: 创建索引:可以使用createIndex()方法在MongoDB中创建...
    99+
    2024-05-07
    MongoDB
  • 如何解析分区索引中local index索引和global index
    本篇文章给大家分享的是有关如何解析分区索引中local index索引和global index,小编觉得挺实用的,因此分享给大家学习,希望大家阅读完这篇文章后可以有所收获,话不多说,跟着小编一起来看看吧。...
    99+
    2024-04-02
  • 如何理解oracle索引组织表
    本篇文章给大家分享的是有关如何理解oracle索引组织表,小编觉得挺实用的,因此分享给大家学习,希望大家阅读完这篇文章后可以有所收获,话不多说,跟着小编一起来看看吧。 今天学习下oracle中索引组织表,...
    99+
    2024-04-02
  • 如何理解index merge合并索引
    本篇文章给大家分享的是有关index merge合并索引,小编觉得挺实用的,因此分享给大家学习,希望大家阅读完这篇文章后可以有所收获,话不多说,跟着小编一起来看看吧。mysql> create ind...
    99+
    2024-04-02
  • 如何理解MySQL的索引技术?
    如何理解MySQL的索引技术?在数据库中,索引是一种提高查询效率的重要技术。MySQL作为一种流行的关系型数据库管理系统,其索引技术的运用能够显著提升查询性能。本文将从索引的定义、类型、创建和优化几个方面来解析MySQL的索引技术。首先,索...
    99+
    2023-10-22
    MySQL 索引技术
  • oracle分区索引失效如何解决
    当Oracle分区索引失效时,可以尝试以下几种解决方法:1. 重新构建分区索引:使用ALTER INDEX语句来重建分区索引,例如:...
    99+
    2023-08-25
    oracle
  • 如何通过索引优化PHP与MySQL的全文检索和排序查询?
    在开发互联网应用程序中,全文检索和排序查询是常见的需求。对于大量数据的查询操作来说,优化索引是提高数据库性能的重要手段之一。在PHP与MySQL的组合中,我们可以通过合理使用索引,来提高全文检索和排序查询的效率。本文将介绍如何通过索引优化P...
    99+
    2023-10-21
    MySQL PHP 索引优化
软考高级职称资格查询
推荐阅读
编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作