分享好友 最新动态首页 最新动态分类 切换频道
词典分词算法详解:从基础到高效实现
2024-12-28 04:39

2. 词典分词

  • 2.1 什么是词
  • 2.2 词典
  • 2.3 切分算法
  • 2.4 字典树
  • 2.5 基于字典树的其它算法
  • 2.6 HanLP的词典分词实现
  • 中文分词:指的是将一段文本拆分为一系列单词的过程,这些单词顺序拼接后等于原文本。
  • 中文分词算法大致分为基于词典规则基于机器学习这两大派。

2.1 什么是词

  • 在基于词典的中文分词中,词的定义要现实得多词典中的字符串就是词

  • 词的性质–齐夫定律:一个单词的词频与它的词频排名成反比。

2.2 词典

互联网词库(SogouW, 15万个词条)、清华大学开放中文词库(THUOCL)、HanLP词库(千万级词条)
例如

 

HanLP中的词典格式是一种以空格分隔的表格形式,第一列是单词本身,之后每两列分别表示词性与相应的词频。

2.3 切分算法

首先,加载词典

 
  1. 完全切分

    指的是,找出一段文本中的所有单词。

     

    输出

     

    输出了所有可能的单词。由于词库中含有单字,所以结果中也出现了一些单字。

  2. 正向最长匹配

    上面的输出并不是中文分词,我们更需要那种有意义的词语序列,而不是所有出现在词典中的单词所构成的链表。比如,我们希望“北京大学”成为一整个词,而不是“北京 + 大学”之类的碎片。具体来说,就是在以某个下标为起点递增查词的过程中,优先输出更长的单词,这种规则被称为最长匹配算法。从前往后匹配则称为正向最长匹配,反之则称为逆向最长匹配

     

    输出

     

    第二句话就会产生误差了,我们是需要把“研究”提取出来,结果按照正向最长匹配算法就提取出了“研究生”,所以人们就想出了逆向最长匹配。

  3. 逆向最长匹配

     

    输出

     

    第一句正确了,但下一句又出错了,可谓拆东墙补西墙。另一些人提出综合两种规则,期待它们取长补短,称为双向最长匹配。

  4. 双向最长匹配

    这是一种融合两种匹配方法的复杂规则集,流程如下

    • 同时执行正向和逆向最长匹配,若两者的词数不同,则返回词数更少的那一个。
    • 否则,返回两者中单字更少的那一个。当单字数也相同时,优先返回逆向最长匹配的结果。
     

    输出

     

通过以上几种切分算法,我们可以做一个对比

上图显示,双向最长匹配的确在2、3、5这3种情况下选择出了最好的结果,但在4号句子上选择了错误的结果,使得最终正确率 3/6 反而小于逆向最长匹配的 4/6 , 由此,规则系统的脆弱可见一斑。规则集的维护有时是拆东墙补西墙,有时是帮倒忙。

2.4 字典树

匹配算法的瓶颈之一在于如何判断集合(词典)中是否含有字符串。如果用有序集合TreeMap)的话,复杂度是o(logn) ( n是词典大小);如果用散列表( Java的HashMap. Python的dict )的话,账面上的时间复杂度虽然下降了,但内存复杂度却上去了。有没有速度又快、内存又省的数据结构呢?这就是字典树

  1. 什么是字典树

    字符串集合常用宇典树(trie树、前缀树)存储,这是一种字符串上的树形数据结构。字典树中每条边都对应一个字, 从根节点往下的路径构成一个个字符串。字典树并不直接在节点上存储字符串, 而是将词语视作根节点到某节点之间的一条路径,并在终点节点(蓝色) 上做个标记“该节点对应词语的结尾”。字符串就是一 条路径,要查询一个单词,只需顺着这条路径从根节点往下走。如果能走到特殊标记的节点,则说明该字符串在集合中,否则说明不存在。一个典型的字典树如下图所示所示。

    其中,蓝色标记着该节点是一个词的结尾,数字是人为的编号。按照路径我们可以得到如下表所示

    词语路径入门0-1-2自然0-3-4自然人0-3-4-5自然语言0-3-4-6-7自语0-3-8

    当词典大小为 n 时,虽然最坏情况下字典树的复杂度依然是O(logn) (假设子节点用对数复杂度的数据结构存储,所有词语都是单字),但它的实际速度比二分查找快。这是因为随着路径的深入,前缀匹配是递进的过程,算法不必比较字符串的前缀。

  2. 字典树增删改

实现及其增删改查的操作见P47-49

2.5 基于字典树的其它算法

字典树的数据结构在以上的切分算法中已经很快了,但厉害的是作者通过自己的努力改进了基于字典树的算法,把分词速度推向了千万字每秒的级别,这里不一一详细介绍,详情见书,主要按照以下递进关系优化

  • 首字散列其余二分的字典树
  • 双数组字典树
  • AC自动机(多模式匹配)
  • 基于双数组字典树的AC自动机

2.6 HanLP的词典分词实现

  1. DoubleArrayTrieSegment

    DoubleArrayTrieSegment分词器是对DAT最长匹配的封装,默认加载hanlp.properties中CoreDictionaryPath制定的词典。

     

    输出

     
  2. 去掉停用词

    停用词词典文件(data/dictionnary/stopwords.txt

    该词典收录了常见的中英文无意义词汇(不含敏感词),每行一个词。

     

    输出

最新文章
急,关于Excel如何对数据进行综合排名的问题?
Excel 中的排序功能非常强大,可以用来对数据进行综合排名。步骤如下:一、打开 Excel,点击“开始”或者“文件”,然后选择要打开的文件,进入该文件中。二、在“文件”选项卡上,点击“排序和筛选”,然后选择“自定义排序”。三、在”自
网站优化怎么弄,网站优化关键词搜索下拉
1:网站优化的重要性网站优化对于现在的网站来说是非常重要的,因为优化可以使网站更加容易被人们找到。搜索引擎优化能够使网站在搜索引擎的搜索结果中排名更靠前,这样就能够使更多的人访问到你的网站。要想对网站进行优化,首先要做的就
只需简单几步 - 开始玩耍微信小程序
写在前面:博主是一只经过实战开发历练后投身培训事业的“小山猪”,昵称取自动画片《狮子王》中的“彭彭”,总是以乐观、积极的心态对待周边的事物。本人的技术路线从Java全栈工程师一路奔向大数据开发、数据挖掘领域&#
服务器运维管理面板1Panel本地部署并结合内网穿透实现远程访问
1Panel 是一个现代化、开源的 Linux 服务器运维管理面板。高效管理,通过 Web 端轻松管理 Linux 服务器,包括主机监控、文件管理、数据库管理、容器管理等 下面我们介绍在Linux 本地安装1Panel 并结合cpolar 内网穿透工具实现远程访问
深入理解搜索引擎——开篇
什么是搜索引擎? 搜索引擎,一般分为大搜和垂搜,其中大搜包含我们熟知的google、baidu、搜狗、神马及近期比较活跃的夸克,垂搜包含各领域门户网站的搜索引擎,例如电商搜索(淘宝、天猫、京东及拼多多等等)、本地生活搜索(美团、饿了么及
科技板块独占鳌头,AI眼镜领涨!指数混时间,后市怎么看?
【盘面分析】12月份国内和国外会议多,本周A股市场在政治局会议公告之后大幅上涨,但是幅度和持续性依然一般。这一态势与10月8日的走势遥相呼应,但是对比外盘欧美股市,A股其实已经“很强了”!本周还有3个交易日,对比之前的走势,只要不
海纳小说阅读器
闲着无聊就来看小说吧!《海纳小说阅读器》是一款小说免费阅读软件。不瞒大家说,小编我以前一直在用这款阅读器,因为真的很好用。软件内的小说种类齐全,而且全部免费,连阅读界面也是小编我最喜欢的样式。大家快来下载吧。1、完全免费!无
网易有道词典介绍.网易有道词典介绍.ppt
主讲教师:毛凌志浙江经贸职业技术学院数据采集与处理有道词典案例导入功能介绍下载其它英语学习工具介1、案例导入小明是一名大一新生,他的专业经常有英语方面的需求,但是他英语不太好,碰到专业上的词汇就不明白意思了。那么,这种情况
榴莲视频app下载安装无限看丝瓜安卓七客,一款提供海量视频资源的免费观看神器
在众多的视频类 App 中,榴莲视频 app 下载安装无限看丝瓜安卓七客以其海量的视频资源和免费观看的特点脱颖而出,成为了众多用户的首选。详细介绍这款 App 的特点和优势,以及如何正确使用它来观看视频。榴莲视频 app 下载安装无限看丝瓜安
百度影音浏览器:畅享高清影音,尽在指尖
简介:百度影音浏览器是一款功能强大的影音播放工具,可以让用户在手机或电脑上畅享高清影音,尽在指尖。本文将介绍百度影音浏览器的特点和优势,并提供使用方法和建议。工具原料:电脑品牌型号:华硕ROG GX501操作系统版本:Windows 10软
相关文章
推荐文章
发表评论
0评