searchblox–一个基于lucene的搜索产品
星期三, 十二月 8th, 2010
前两天在solr邮件组看到一封广告帖,一个叫searchblox的搜索产品可免费使用,好奇心驱使我简单了解并使用了一下。searchblox是基于lucene的搜索解决方案,现在的版本已经是6.1,看来也有些年头了。searchblox不是个开源产品,有免费的版本,也有收费的版本,看文档介绍,收费版本除了提供服务支持还多了复制功能。
solr SolrIndexSearcher性能问题分析
星期四, 十月 21st, 2010
基于solr的新搜索系统已经使用了有段时间,不过之前上的几个库都很小,也没发现什么性能问题。最近上了thread和post库后,性能问题显现出来。这段时间解决的性能问题有好几个,本文只着重于SolrIndexSearcher的search问题。thread库索引大小有400M多,记录数有400多万,原来的基于lucene的系统的查询处理耗时一般在10-30ms,而同样的请求,新系统耗时在50-100ms。而post库索引大小有 6G多,记录数有3000多万,旧系统的查询处理时间一般在30-80ms,而新系统往往需要400-800ms,性能差距还是很明显的。
因为SolrIndexSearcher是基于lucene的IndexSearcher,想必应该是青出于蓝胜于蓝,并且其wiki上给出的性能数据也很不错,所以当我把新系统做完后并没有去细致的测试其性能。但现在系统的性能相比之下确实有些差,并且因为要做多个库的整合搜索,就要避免像thread 这样耗时长的库就成为短板。总之,问题需要定位和解决。
twitter的新搜索架构
星期天, 十月 10th, 2010
当习惯于粗略浏览google reader中的未读条目后便似完成任务般的“全部标记已读”,我就经常性的错过不错的精彩条目,比如这篇 Twitter’s New Search Architecture。我是订阅了engineering.twitter.com的,但这并不影响我没有注意到它就把它mark过。今天看到这篇文章时,已经有别的网站将该文翻译成中文了,比如新 Twitter,新搜索,比如 新 Twitter,新搜索,我在这也就算是炒冷饭了。
[Solr源码分析]Solr复制类ReplicationHandler实现简要分析
星期天, 七月 25th, 2010
在上一文《solr ReplicationHandler使用介绍》的基础上,本文接着对solr的ReplicationHandler实现细节做些分析,这个分析原则上没有摘取大段代码,窃以为摘了代码后未见得有很好的阐述效果,但不摘取后窃又发现,阐述的效果依旧不好。归结起来,还是窃的表达不够深入浅出所致。闲言少叙,直接上内容。
[Solr实践]Solr复制类ReplicationHandler使用介绍
星期六, 七月 24th, 2010
solr1.4中引入ReplicationHandler代替外部脚本来复制索引数据,ReplicationHandler使得复制索引数据更自动化。对于使用者来说,只要简单的配置好,就可以一劳永逸的享受solr的复制功能了。下面介绍其使用相关内容。
避免lucene queryparser中文分词的缺陷
星期五, 七月 9th, 2010
很多人在使用lucene时会使用其提供的queryparser分析query。不过,lucene的queryparser从一开始到现在都没有充分考虑中文等语言的特点,使得查询中文会出现让人不可理解的查不到结果的情况。这个bug就是LUCENE-2458 。