当前位置:网站首页 > Java教程 > 正文

java分词教程



  • ansj
  • hanlp
  • ik

分词准确性排行:hanlp > ansj > 结巴 > IK > Smart Chinese Analysis

  • 优点:
      1. 提供多种分词方式
      2. 可直接根据内部词库分出人名、机构等信息
      3. 可构造多个词库,在分词时可动态选择所要使用的词库
  • 缺点:
      1. 自定义词典时,系统词典还是被优先使用,导致词性不是自定义词典中的词性
      2. 多单词英文姓名无法分出
      3. 对标hanlp词库略少,学习成本高
  • 适用场景
      1. 若不使用自定义分词,可直接使用ansj
  • 优点:
      1. 自定义分词、词性方便
      2. 可分出多单词的英文名称(词典数据可带空格)
      3. 可动态增删词库,
      4. 动态添加词典前五千万速度很快,5m左右
  • 缺点:
      1. 动态添加词典前五千万快的很,越往后越慢
      2. 词典文件添加自定义词典速度略慢,添加100w需要2m30s
  • 适用场景:
      1. 词典数量少于五千万,词典数据若包含空格,用hanlp比较合适
  • 优点:
      1. 开源、轻量、
      2. 支持自定义词典和远程词典
      3. bug少,稳定,简单易用。
  • 缺点:
      1. 不够智能,
      2. 词库需要自行维护
      3. 不支持词性识别
  • 适用场景:
      1. 词典数量少于五千万,词典数据若包含空格,用hanlp比较合适
  1. 对搜索要求不高的建议选用 IK 学习成本低,使用教程多,还支持远程词典
  2. Ansj和hanlp均基于自然处理语言,分词准确度高,活跃度来讲hanlp略胜一筹

1.maven引入ansj包

 
  • 2.在项目根目录下创建library文件夹,文件夹下包括以下几个词典文件(自行添加)

ambiguity.dic
default.dic
userLibrary.dic

  • 3.使用
 
  • 1.maven添加依赖
 
  • 2.动态添加词
 
  • 3.动态删除词
 
  • 4.使用
 
  • 5.自定义词典文件
    词典文件格式如下,依次是 词、词性、权重
    word nature weight

data文件夹如下

  • 依赖
 
  • 使用
 
  • 输出

                            

版权声明


相关文章:

  • java 反射教程视频2024-12-20 22:02:05
  • java扫雷代码教程2024-12-20 22:02:05
  • java实战项目j教程2024-12-20 22:02:05
  • java编程反码教程2024-12-20 22:02:05
  • java同步锁教程2024-12-20 22:02:05
  • java数据输入教程2024-12-20 22:02:05
  • 红包源码java教程2024-12-20 22:02:05
  • java防火墙教程2024-12-20 22:02:05
  • java课件教程2024-12-20 22:02:05
  • java教程 廖雪2024-12-20 22:02:05