- ansj
- hanlp
- ik
分词准确性排行:hanlp > ansj > 结巴 > IK > Smart Chinese Analysis
- 优点:
1. 提供多种分词方式
2. 可直接根据内部词库分出人名、机构等信息
3. 可构造多个词库,在分词时可动态选择所要使用的词库 - 缺点:
1. 自定义词典时,系统词典还是被优先使用,导致词性不是自定义词典中的词性
2. 多单词英文姓名无法分出
3. 对标hanlp词库略少,学习成本高 - 适用场景
1. 若不使用自定义分词,可直接使用ansj
- 优点:
1. 自定义分词、词性方便
2. 可分出多单词的英文名称(词典数据可带空格)
3. 可动态增删词库,
4. 动态添加词典前五千万速度很快,5m左右 - 缺点:
1. 动态添加词典前五千万快的很,越往后越慢
2. 词典文件添加自定义词典速度略慢,添加100w需要2m30s - 适用场景:
1. 词典数量少于五千万,词典数据若包含空格,用hanlp比较合适
- 优点:
1. 开源、轻量、
2. 支持自定义词典和远程词典
3. bug少,稳定,简单易用。 - 缺点:
1. 不够智能,
2. 词库需要自行维护
3. 不支持词性识别 - 适用场景:
1. 词典数量少于五千万,词典数据若包含空格,用hanlp比较合适
- 对搜索要求不高的建议选用 IK 学习成本低,使用教程多,还支持远程词典
- Ansj和hanlp均基于自然处理语言,分词准确度高,活跃度来讲hanlp略胜一筹
1.maven引入ansj包
- 2.在项目根目录下创建library文件夹,文件夹下包括以下几个词典文件(自行添加)
ambiguity.dic
default.dic
userLibrary.dic
- 3.使用
- 1.maven添加依赖
- 2.动态添加词
- 3.动态删除词
- 4.使用
- 5.自定义词典文件
词典文件格式如下,依次是 词、词性、权重
word nature weight
data文件夹如下
- 依赖
- 使用
- 输出
版权声明:
本文来源网络,所有图片文章版权属于原作者,如有侵权,联系删除。
本文网址:https://www.bianchenghao6.com/java-jiao-cheng/13948.html