开源分词程序ki-analyzer启动

Posted in framework on 六月 18th, 2011 by kafka0102

ki-analyzer 是基于ik-analyzer 修改而来的分词程序,所以名字上只是简单的变了一下,源码方面还是沿用了ik的包名等。之所以在ik-analyzer之上山寨另一个轮子,也实在是因为我的需求ik-analyzer不能很好满足,并且功能、设计、改动方面较ik-analyzer有很大出入,所以另起山寨。ik-analyzer项目现在还活着,前不久发布了新版,貌似只是源码实现细节的调整,项目也不是很活跃。当然,国内的几个开源分词程序基本都停滞了。ki-analyzer程序是上周修改的,这周实际测试了一下,只能说bug方面基本稳定,但尚需进一步检验。因为一些想要的功能暂时还用不上,所以也没着急做。关于ki-analyzer的详细情况可以参考项目首页信息,对该项目感兴趣或有问题的朋友可以联系我。


=============================== 华丽的终止符 ================================

本文作者:kafka0102,转载文章请注明来源,谢谢!!
本文链接:http://www.kafka0102.com/2011/06/453.html


随机日志


8 Responses

  1. 小宝 Says:

    放出来了,太好了 。

    [回复]

  2. iveney Says:

    求 wiki, 求文档.

    [回复]

    kafka0102 回复:

    悄悄发布了一个版本,补充了部分wiki,过段时间会更加完善功能。

    [回复]

  3. gumoon Says:

    赞一个

    [回复]

  4. stvliu Says:

    使用下列代码,添加扩展词条”T恤”后,对“红色T恤”进行分词,结果为”红色”,”t”,”恤”三个词条,为何?

    List extWords = new ArrayList();
    extWords.add(“T恤”);
    Dictionary.loadExtendWords(extWords);
    StringReader reader = new StringReader(“红色T恤”);
    IKSegmentation analyzer = new IKSegmentation(reader, true, true);
    Lexeme lexeme;
    try {
    lexeme = analyzer.next();
    while (lexeme != null) {
    System.out.println(lexeme.getLexemeText());
    lexeme = analyzer.next();
    }
    } catch (IOException e) {

    }

    [回复]

    kafka0102 回复:

    @stvliu,

    extWords.add(“T恤”);需要修改成extWords.add(“t恤”);
    因为分词时统一处理成了小写字符,所以词库必须都是小写字符。这个字典加载本可以检查的,但考虑效率问题,还是外部保证的好。

    [回复]

  5. 灵桐 Says:

    Dictionary.loadExtendWords(extWords);
    这个是要什么时候调用?

    [回复]

    kafka0102 回复:

    对于扩展词,通常配置在文件里就ok了。除非你有情况需要动态设置。

    [回复]

留下评论

说明:评论需要审核通过才能显示