开源分词程序ki-analyzer启动
Posted in framework on 六月 18th, 2011 by kafka0102
ki-analyzer 是基于ik-analyzer 修改而来的分词程序,所以名字上只是简单的变了一下,源码方面还是沿用了ik的包名等。之所以在ik-analyzer之上山寨另一个轮子,也实在是因为我的需求ik-analyzer不能很好满足,并且功能、设计、改动方面较ik-analyzer有很大出入,所以另起山寨。ik-analyzer项目现在还活着,前不久发布了新版,貌似只是源码实现细节的调整,项目也不是很活跃。当然,国内的几个开源分词程序基本都停滞了。ki-analyzer程序是上周修改的,这周实际测试了一下,只能说bug方面基本稳定,但尚需进一步检验。因为一些想要的功能暂时还用不上,所以也没着急做。关于ki-analyzer的详细情况可以参考项目首页信息,对该项目感兴趣或有问题的朋友可以联系我。
=============================== 华丽的终止符 ================================
随机日志
8 Responses
留下评论
六月 19th, 2011 at 10:23 上午
放出来了,太好了 。
[回复]
六月 24th, 2011 at 3:40 上午
求 wiki, 求文档.
[回复]
kafka0102 回复:
七月 9th, 2011 at 9:12 下午
悄悄发布了一个版本,补充了部分wiki,过段时间会更加完善功能。
[回复]
六月 25th, 2011 at 1:21 上午
赞一个
[回复]
八月 19th, 2011 at 5:19 下午
使用下列代码,添加扩展词条”T恤”后,对“红色T恤”进行分词,结果为”红色”,”t”,”恤”三个词条,为何?
List extWords = new ArrayList();
extWords.add(“T恤”);
Dictionary.loadExtendWords(extWords);
StringReader reader = new StringReader(“红色T恤”);
IKSegmentation analyzer = new IKSegmentation(reader, true, true);
Lexeme lexeme;
try {
lexeme = analyzer.next();
while (lexeme != null) {
System.out.println(lexeme.getLexemeText());
lexeme = analyzer.next();
}
} catch (IOException e) {
}
[回复]
kafka0102 回复:
八月 19th, 2011 at 5:56 下午
@stvliu,
extWords.add(“T恤”);需要修改成extWords.add(“t恤”);
因为分词时统一处理成了小写字符,所以词库必须都是小写字符。这个字典加载本可以检查的,但考虑效率问题,还是外部保证的好。
[回复]
十月 10th, 2011 at 9:45 上午
Dictionary.loadExtendWords(extWords);
这个是要什么时候调用?
[回复]
kafka0102 回复:
十月 10th, 2011 at 10:42 上午
对于扩展词,通常配置在文件里就ok了。除非你有情况需要动态设置。
[回复]