当前位置：网站首页 > Java教程 > 正文

java分词教程

Java教程来源：网络编辑：小编发布时间：2024-12-20 22:02:05 浏览量：118

ansj
hanlp
ik

分词准确性排行：hanlp > ansj > 结巴 > IK > Smart Chinese Analysis

优点:
　　1. 提供多种分词方式
　　2. 可直接根据内部词库分出人名、机构等信息
　　3. 可构造多个词库，在分词时可动态选择所要使用的词库
缺点:
　　1. 自定义词典时，系统词典还是被优先使用，导致词性不是自定义词典中的词性
　　2. 多单词英文姓名无法分出
　　3. 对标hanlp词库略少，学习成本高
适用场景
　　1. 若不使用自定义分词，可直接使用ansj

优点:
　　1. 自定义分词、词性方便
　　2. 可分出多单词的英文名称(词典数据可带空格)
　　3. 可动态增删词库,
　　4. 动态添加词典前五千万速度很快，5m左右
缺点：
　　1. 动态添加词典前五千万快的很，越往后越慢
　　2. 词典文件添加自定义词典速度略慢，添加100w需要2m30s
适用场景：
　　1. 词典数量少于五千万，词典数据若包含空格，用hanlp比较合适

优点:
　　1. 开源、轻量、
　　2. 支持自定义词典和远程词典
　　3. bug少，稳定，简单易用。
缺点：
　　1. 不够智能，
　　2. 词库需要自行维护
　　3. 不支持词性识别
适用场景：
　　1. 词典数量少于五千万，词典数据若包含空格，用hanlp比较合适

对搜索要求不高的建议选用 IK 学习成本低，使用教程多，还支持远程词典
Ansj和hanlp均基于自然处理语言，分词准确度高，活跃度来讲hanlp略胜一筹

1.maven引入ansj包

2.在项目根目录下创建library文件夹，文件夹下包括以下几个词典文件(自行添加)

ambiguity.dic
default.dic
userLibrary.dic

3.使用

1.maven添加依赖

2.动态添加词

3.动态删除词

4.使用

5.自定义词典文件
词典文件格式如下,依次是词、词性、权重
word nature weight

data文件夹如下

依赖

使用

输出

上一篇： java 反射教程视频

下一篇： java数据输入教程

版权声明：
本文来源网络，所有图片文章版权属于原作者，如有侵权，联系删除。

本文网址：https://www.bianchenghao6.com/java-jiao-cheng/13948.html

相关文章：

java 反射教程视频2024-12-20 22:02:05

java扫雷代码教程2024-12-20 22:02:05

java实战项目j教程2024-12-20 22:02:05

java编程反码教程2024-12-20 22:02:05

java同步锁教程2024-12-20 22:02:05

java数据输入教程2024-12-20 22:02:05

红包源码java教程2024-12-20 22:02:05

java防火墙教程2024-12-20 22:02:05

java课件教程2024-12-20 22:02:05

java教程廖雪2024-12-20 22:02:05

java和基岩联机教程
2024-11-18 13:02:04
布吉岛开端教程java
2024-11-22 15:26:06
java短信发送教程
2025-01-02 17:10:04
电脑版java安装教程
2025-01-03 10:50:01
java刷村民教程
2024-12-05 08:26:06
java415教程全套
2025-01-03 12:58:01
java微信小程序开发教程
2025-01-02 18:50:01
java健身视频教程
2025-01-03 16:34:06
java网络编程案例教程笔记
2025-01-03 11:34:04
闪电弓箭教程java
2024-12-06 08:18:00

零基础Java教程合集
2024-11-04 10:10:03
java基础教程第5讲
2024-11-04 11:18:05
java多线程详细教程
2024-10-11 08:02:05
java木板小屋教程
2024-10-11 08:14:01
java基础教程133
2024-10-11 08:26:02
java扫码教程
2024-10-11 08:38:02
java教程312
2024-10-11 08:50:06
java遮罩使用教程
2024-10-11 09:02:06
java httpclient教程
2024-10-11 09:14:03
oa开发java教程
2024-10-11 09:26:00

java和基岩联机教程
2024-11-18 13:02:04
布吉岛开端教程java
2024-11-22 15:26:06
java短信发送教程
2025-01-02 17:10:04