返回顶部
首页 > 资讯 > 精选 >如何分析基于结构化平均感知机的分词器Java实现
  • 436
分享到

如何分析基于结构化平均感知机的分词器Java实现

2023-06-02 19:06:41 436人浏览 安东尼
摘要

本篇文章给大家分享的是有关如何分析基于结构化平均感知机的分词器Java实现,小编觉得挺实用的,因此分享给大家学习,希望大家阅读完这篇文章后可以有所收获,话不多说,跟着小编一起来看看吧。基于结构化平均感知机的分词器Java实现最近高产似母猪,

本篇文章给大家分享的是有关如何分析基于结构化平均感知机的分词器Java实现,小编觉得挺实用的,因此分享给大家学习,希望大家阅读完这篇文章后可以有所收获,话不多说,跟着小编一起来看看吧。

基于结构化平均感知机的分词器Java实现

最近高产似母猪,写了个基于AP的中文分词器,在Bakeoff-05的MSR语料上F值有96.11%。最重要的是,只训练了5个迭代;包含语料加载等io操作在内,整个训练一共才花费23秒。应用裁剪算法去掉模型中80%的特征后,F值才下降不到0.1个百分点,体积控制在11兆。如果训练一百个迭代,F值可达到96.31%,训练时间两分多钟。

数据在一台普通的IBM兼容机上得到:

如何分析基于结构化平均感知机的分词器Java实现

本模块已集成到HanLP 1.6以上版本开源,文档位于项目wiki中,欢迎使用!【hanlp1.7新版本已经发布,可以去新版本查到看使用

结构化预测

关于结构化预测和非结构化预测的区别一张讲义说明如下:

如何分析基于结构化平均感知机的分词器Java实现

更多知识请参考Neubig的讲义《The Structured Perceptron》。

本文实现的AP分词器预测是整个句子的BMES标注序列,当然属于结构化预测问题了。

感知机

二分类

感知机的基础形式如《统计学习方法》所述,是定义在一个超平面上的线性二分类模型。作为原著第二章,实在是简单得不能再简单了。然而实际运用中,越简单的模型往往生命力越顽强。

这里唯一需要补充的是,感知机是个在线学习模型,学习一个训练实例后,就可以更新整个模型。

多分类

怎么把二分类拓展到多分类呢?可以用多个分类器,对于BMES这4种分类,就是4个感知机了。每个感知机分别负责分辨“是不是B”“是不是M”“是不是E”“是不是S”这4个二分类问题。在实现中,当然不必傻乎乎地创建4个感知机啦。把它们的权值向量拼接在一起,就可以输出“是B的分数”“是M的分数”“是E的分数”“是S的分数”了。取其最大者,就可以初步实现多分类。但在分词中,还涉及到转移特征和HMM-viterbi搜索算法等,留到下文再说。

平均感知机

平均感知机指的是记录每个特征权值的累计值,最后平均得出最终模型的感知机。为什么要大费周章搞个平均算法出来呢?

前面提到过,感知机是个在线学习模型,学习一个训练实例后,就可以更新整个模型。假设有10000个实例,模型在前9999个实例的学习中都完美地得到正确答案,说明此时的模型接近完美了。可是最后一个实例是个噪音点,朴素感知机模型预测错误后直接修改了模型,导致前面9999个实例预测错误,模型训练前功尽弃。

有什么解决方案呢?一种方案是投票式的,即记录每个模型分类正确的次数,作为它的得票。训练结束时取得票最高的模型作为最终模型。但这种算法是不实际的,如果训练5个迭代,10000个实例,那么就需要储存50000个模型及其票数,太浪费了。

最好用的方法是平均感知机,将这50000个模型的权值向量累加起来,最后除以50000就行了,这样任何时候我们只额外记录了一个累加值,非常高效了。关于平均感知机的详情请参考《200行python代码实现感知机词性标注器》。虽然那篇文章是讲解词性标注的,但相信作为万物灵长的读者一定拥有举一反三的泛化能力。

语言模型

HMM

我们不是在讲解感知机分词吗?怎么跟HMM扯上关系了?

其实任何基于序列标注的分词器都离不开隐马尔科夫链,即BMES这四个标签之间的Bigram(乃至更高阶的n-gram)转移概率。作为其中一员的AP分词器,也不例外地将前一个字符的标签作为了一个特征。该特征对预测当前的标签毫无疑问是有用的,比如前一个标签是B,当前标签就绝不可能是S。

这种类似于y[i-1]的特征在线性图模型中一般称为转移特征,而那些不涉及y[i-1]的特征通常称为状态特征。

viterbi

由于AP分词器用到了转移特征,所以肯定少不了维特比搜索。从序列全体的准确率考虑,搜索也是必不可少的。给定隐马尔可夫模型的3要素,我用Java写了一段“可运行的伪码”:

如何分析基于结构化平均感知机的分词器Java实现

如何分析基于结构化平均感知机的分词器Java实现

上述实现是个重视条理胜于效率的原型,古人云“过早优化是魔鬼”。相信聪明的读者一定能看懂这里面在干什么。

特征提取

定义字符序列为x,标注序列为y。

转移特征

转移特征就是上面说的y[i-1]。

状态特征

我一共使用了7种状态特征:

如何分析基于结构化平均感知机的分词器Java实现

在邓知龙的《基于感知器算法的高效中文分词与词性标注系统设计与实现》中提到,要利用更复杂的字符n-gram、字符类别n-gram、叠字、词典等特征。但在我的实践中,除了上述7种特征外,我每减少一个特征,我的AP分词器的准确率就提高一点,也许是语料不同吧,也许是特征提取的实现不同。总之,主打精简、高效。

训练

迭代数目其实不需要太多,在3个迭代内模型基本就收敛了:

如何分析基于结构化平均感知机的分词器Java实现

第4个迭代似乎帮了倒忙,但万幸的是,我们使用的是平均感知机。权值平均之后,模型的性能反而有所提升。

此时模型大小:

如何分析基于结构化平均感知机的分词器Java实现

模型裁剪

《基于感知器算法的高效中文分词与词性标注系统设计与实现》提到的模型裁剪策略是有效的,我将压缩率设为0.2,即压缩掉20%的特征,模型准确率没有变化:

 如何分析基于结构化平均感知机的分词器Java实现

由于我使用了随机shuffle算法,所以每次训练准确率都略有微小的上下波动。此时可以看到模型裁剪过程花了额外的1分钟,裁剪完毕后准确率维持96.11不变。

此时模型大小:

如何分析基于结构化平均感知机的分词器Java实现

裁减掉50%如何呢?

如何分析基于结构化平均感知机的分词器Java实现

此时模型大小:

如何分析基于结构化平均感知机的分词器Java实现

可见裁剪了80%的特征,体积从54M下降到11M,模型的准确率才跌了不到0.1个百分点!这说明大部分特征都是没用的,特征裁剪非常有用、非常好用!

以上就是如何分析基于结构化平均感知机的分词器Java实现,小编相信有部分知识点可能是我们日常工作会见到或用到的。希望你能通过这篇文章学到更多知识。更多详情敬请关注编程网精选频道。

--结束END--

本文标题: 如何分析基于结构化平均感知机的分词器Java实现

本文链接: https://lsjlt.com/news/231032.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

猜你喜欢
  • 如何分析基于结构化平均感知机的分词器Java实现
    本篇文章给大家分享的是有关如何分析基于结构化平均感知机的分词器Java实现,小编觉得挺实用的,因此分享给大家学习,希望大家阅读完这篇文章后可以有所收获,话不多说,跟着小编一起来看看吧。基于结构化平均感知机的分词器Java实现最近高产似母猪,...
    99+
    2023-06-02
  • JavaScript如何实现简单的词法分析器
    这篇文章主要介绍了JavaScript如何实现简单的词法分析器的相关知识,内容详细易懂,操作简单快捷,具有一定借鉴价值,相信大家阅读完这篇JavaScript如何实现简单的词法分析器文章都会有所收获,下面我们一起来看看吧。什么是词法分析器?...
    99+
    2023-07-05
  • 如何进行Spring AOP框架实现的结构分析
    如何进行Spring AOP框架实现的结构分析,相信很多没有经验的人对此束手无策,为此本文总结了问题出现的原因和解决方法,通过这篇文章希望你能解决这个问题。从实现的角度来认识SpringAOP框架。观察的角度:从外部接口,内部实现,组成部分...
    99+
    2023-06-17
  • Python机器学习之如何基于Pytorch实现猫狗分类
    这篇文章给大家分享的是有关Python机器学习之如何基于Pytorch实现猫狗分类的内容。小编觉得挺实用的,因此分享给大家做个参考,一起跟随小编过来看看吧。一、环境配置安装Anaconda具体安装过程,请点击本文配置Pytorchpip&n...
    99+
    2023-06-15
  • 如何设计一个优化的MySQL表结构来实现数据分析功能?
    如何设计一个优化的MySQL表结构来实现数据分析功能?摘要:随着数据分析的兴起,构建一个高效的数据库表结构成为数据工程师面临的重要问题。本文将介绍如何设计一个优化的MySQL表结构来实现数据分析功能,包括表的规范化、索引的设计以及数据类型的...
    99+
    2023-10-31
    数据分析 MySQL表结构 优化设计
  • 如何使用ChatGPT PHP实现智能聊天机器人的情感分析功能
    如何使用ChatGPT PHP实现智能聊天机器人的情感分析功能智能聊天机器人在现代社交网络和商务应用中越来越被广泛使用,但要使机器人更加智能,除了基本的问答功能外,情感分析也是非常重要的一环。通过情感分析,机器人可以更好地理解用户的情绪和意...
    99+
    2023-10-24
    ChatGPT PHP 情感分析 智能聊天机器人
  • 实例分析:如何在Golang中实现高效的结构体强转
    对于一个Golang开发者来说,牢固扎实的基础是十分重要的,编程网就来带大家一点点的掌握基础知识点。今天本篇文章带大家了解《实例分析:如何在Golang中实现高效的结构体强转》,主要介绍了,希望对大...
    99+
    2024-04-05
  • 如何实现基于Java SpringBoot的前后端分离信息管理系统
    这篇文章主要介绍了如何实现基于Java SpringBoot的前后端分离信息管理系统,具有一定借鉴价值,感兴趣的朋友可以参考下,希望大家阅读完这篇文章之后大有收获,下面让小编带着大家一起了解一下。主要功能说明用户登录、修改密码、首...
    99+
    2023-06-21
  • 如何设计一个优化的MySQL表结构来实现数据分发功能?
    如何设计一个优化的MySQL表结构来实现数据分发功能?在开发数据库应用程序的过程中,我们常常需要将数据分发到不同的表中,以满足在不同的业务场景下的需求。设计一个优化的MySQL表结构来实现数据分发功能,可以提高数据访问效率和查询性能,保证数...
    99+
    2023-10-31
    MySQL表设计 优化表结构 数据分发实现
  • 如何利用Java容器实现高可用的分布式架构?
    分布式架构已经成为了当今软件开发的主流架构之一。在分布式架构中,容器化技术是非常重要的一环。Java容器是开发人员在构建高可用分布式架构时的一个重要工具。本文将介绍如何利用Java容器实现高可用分布式架构,并穿插一些演示代码,帮助读者更好地...
    99+
    2023-09-10
    容器 load 分布式
  • 容器与分布式架构的结合,如何实现高效率的开发?
    随着互联网的快速发展,越来越多的企业开始使用分布式架构来构建其应用程序。然而,分布式架构的开发和部署常常面临着挑战,例如需要考虑到负载均衡、数据一致性、可扩展性等问题。而容器化技术的出现,则为这些问题提供了解决方案。 本文将介绍如何使用容器...
    99+
    2023-06-13
    分布式 leetcode 容器
  • 基于CRF序列标注的中文依存句法分析器的Java实现是怎么样的
    这篇文章给大家介绍基于CRF序列标注的中文依存句法分析器的Java实现是怎么样的,内容非常详细,感兴趣的小伙伴们可以参考借鉴,希望对大家能有所帮助。这是一个基于CRF的中文依存句法分析器,内部CRF模型的特征函数采用 双数组Trie树(Do...
    99+
    2023-06-02
  • Pythonr基于selenium如何实现不同商城的商品价格差异分析系统
    目录1. 前言2、程序设计流程2.1 需求分析:2.2 认识 selenium2.3 功能函数设计3. 总结1. 前言 selenium 原本是一款自动化测试工具,因其出色的页面数据...
    99+
    2024-04-02
  • 如何分析使用wxpy这个基于python实现的微信工具库的常见问题
    本篇文章为大家展示了如何分析使用wxpy这个基于python实现的微信工具库的常见问题,内容简明扼要并且容易理解,绝对能使你眼前一亮,通过这篇文章的详细介绍希望你能有所收获。使用如下的命令行安装:pip install wxpyCollec...
    99+
    2023-06-04
  • Java开发技术和npm包管理器的完美结合,如何实现分布式开发的无缝衔接?
    随着互联网的发展,分布式架构越来越流行,而Java作为一种稳定、可靠、高效的编程语言,被广泛应用于分布式系统开发。但是,在分布式开发过程中,我们还需要考虑包管理的问题,这时候npm包管理器就派上用场了。 npm是Node.js的包管理器,...
    99+
    2023-10-19
    分布式 开发技术 npm
软考高级职称资格查询
编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作