返回顶部
首页 > 资讯 > 精选 >Solr通过特殊字符分词实现自定义分词器详解
  • 252
分享到

Solr通过特殊字符分词实现自定义分词器详解

solr自定义分词器特殊字符 2023-05-31 05:05:54 252人浏览 泡泡鱼
摘要

前言我们在对英文句子分词的时候,一般采用采用的分词器是WhiteSpaceTokenizerFactory,有一次因业务要求,需要根据某一个特殊字符(以逗号分词,以竖线分词)分词。感觉这种需求可能与WhiteSpaceTokenizerFa

前言

我们在对英文句子分词的时候,一般采用采用的分词器是WhiteSpaceTokenizerFactory,有一次因业务要求,需要根据某一个特殊字符(以逗号分词,以竖线分词)分词。感觉这种需求可能与WhiteSpaceTokenizerFactory相像,于是自己根据Solr源码自定义了分词策略。

业务场景

有一次,我拿到的数据都是以竖线“|”分隔,分词的时候,需要以竖线为分词单元。比如下面的这一堆数据:

Solr通过特殊字符分词实现自定义分词器详解

有可能你拿到的是这样的数据,典型的例子就是来自csv文件的数据,格式和下面这种类似:

Solr通过特殊字符分词实现自定义分词器详解

分词思路

在Solr的schema.xml文件中,有这样的配置

<fieldType name="text_ws" class="solr.TextField" positionIncrementGap="100"> <analyzer>  <tokenizer class="solr.WhitespaceTokenizerFactory"/> </analyzer></fieldType>

--结束END--

本文标题: Solr通过特殊字符分词实现自定义分词器详解

本文链接: https://lsjlt.com/news/223805.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

猜你喜欢
软考高级职称资格查询
编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作