首页 > 资讯 > 精选 >Solr通过特殊字符分词实现自定义分词器详解

252

分享到

Solr通过特殊字符分词实现自定义分词器详解

solr 自定义分词器特殊字符 2023-05-31 05:05:54 252人浏览泡泡鱼

摘要

前言我们在对英文句子分词的时候，一般采用采用的分词器是WhiteSpaceTokenizerFactory，有一次因业务要求，需要根据某一个特殊字符（以逗号分词，以竖线分词）分词。感觉这种需求可能与WhiteSpaceTokenizerFa

前言

我们在对英文句子分词的时候，一般采用采用的分词器是WhiteSpaceTokenizerFactory，有一次因业务要求，需要根据某一个特殊字符（以逗号分词，以竖线分词）分词。感觉这种需求可能与WhiteSpaceTokenizerFactory相像，于是自己根据Solr源码自定义了分词策略。

业务场景

有一次，我拿到的数据都是以竖线“|”分隔，分词的时候，需要以竖线为分词单元。比如下面的这一堆数据：

Solr通过特殊字符分词实现自定义分词器详解

有可能你拿到的是这样的数据，典型的例子就是来自csv文件的数据，格式和下面这种类似：

Solr通过特殊字符分词实现自定义分词器详解

分词思路

在Solr的schema.xml文件中，有这样的配置

<fieldType name="text_ws" class="solr.TextField" positionIncrementGap="100"> <analyzer>  <tokenizer class="solr.WhitespaceTokenizerFactory"/> </analyzer></fieldType>

--结束END--

本文标题: Solr通过特殊字符分词实现自定义分词器详解

本文链接: https://lsjlt.com/news/223805.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

回答

如何调试操作系统的错误？
操作系统

2023-11-15发布

回答

操作系统中的I/O系统是如何实现的？
操作系统

2023-11-15发布

回答

如何实现操作系统的内存管理？
操作系统

2023-11-15发布

回答

什么是虚拟内存，它对操作系统有什么影响？
操作系统

2023-11-15发布

回答

ASP中的MVC架构和WebForms架构有什么区别和使用场景？
ASP.NET

2023-11-15发布

回答

ASP中的数据验证和数据校验有什么不同？
ASP.NET

2023-11-15发布

回答

ASP中的ADO对象和DAO对象有什么区别和使用方法？
ASP.NET

2023-11-15发布

回答

Node.js中的包管理器NPM是什么？如何使用它进行依赖管理？
node.js

2023-11-15发布

回答

Vue.js中的动态组件是什么？如何使用它来动态渲染组件？
VUE

2023-11-15发布

回答

如何使用Vue.js实现懒加载和预加载？
VUE

2023-11-15发布

Solr通过特殊字符分词实现自定义分词器详解

Solr通过特殊字符分词实现自定义分词器详解

Spring Boot 实现敏感词及特殊字符过滤处理

Spring Boot如何实现敏感词及特殊字符过滤处理

利用PHP实现词法分析器与自定义语言

PHP怎么实现词法分析与自定义语言

详解JavaScript实现简单的词法分析器示例

Pytorch自定义CNN网络实现猫狗分类详解过程

Android通过自定义Activity实现悬浮的Dialog详解

Android通过自定义view实现刮刮乐效果详解

Android 通过自定义view实现水波纹效果案例详解

PHP扩展开发：如何通过接口分离自定义函数的实现和定义？

SpringBoot配置自定义拦截器实现过程详解

Java操作MyBatis-Plus通过自定义拦截器对mysql字段以注解形式实现自动加解密

详解Android中ListView实现图文并列并且自定义分割线（完善仿微信APP）

使用golang框架有哪些常见的问题？

golang框架与其他流行框架的比较？

如何使用 C++ STL 扩展 C++ 语言的功能？

PHP 框架安全指南：如何实现安全编码实践？

mysql拆分函数使用要注意哪些事项

C++ 思维导图：全面整理编程核心知识

基于社区支持最强大的PHP框架

如何在 C++ 中有效使用 STL 函数对象？

PHP 框架中的调试和故障排除技术

经验丰富的开发者的PHP框架评估指南