searchblox–一个基于lucene的搜索产品

Posted in search on 十二月 8th, 2010 by kafka0102

前两天在solr邮件组看到一封广告帖,一个叫searchblox的搜索产品可免费使用,好奇心驱使我简单了解并使用了一下。searchblox是基于lucene的搜索解决方案,现在的版本已经是6.1,看来也有些年头了。searchblox不是个开源产品,有免费的版本,也有收费的版本,看文档介绍,收费版本除了提供服务支持还多了复制功能。

功能上看,searchblox集成了爬虫和搜索功能,也提供Http API接口供索引和查询,可以在http://www.searchblox.com/developers/documentation上更多的了解searchblox的功能。但搜索功能方面,它也就是solr的子集。试用它很简单,下载解压缩后可直接java -jar start.jar通过jetty启动它,访问它的web admin console观察它的功能。就数据源来说,可以通过配置抓取的网站、RSS feed、本地文件夹数据,供searchblox自动索引和查询。如果索引数据来源自数据库等,searchblox没有提供直接支持,但可以使用它的Http API操作(或许它更应该提供多语言的客户端API)。

下面看下它的架构图,可以更好的睽睽它提供的功能:

在可扩展性方面,它提供了复制的支持,但没有提供shard支持:

写到这里,其实我都不想对searchblox再评头论足了,它看起来实在不是很吸引人。尽管有免费版本,但免费版本功能残缺、文档匮乏,不交钱想用好searchblox也是件难事。看它网站上列出的客户列表,用户群还不少,只是不知道其中水分怎么样。国外基于lucene等开源库的收费搜索解决方案还是很多的,毕竟使用lucene开发一套好的搜索产品成本还是很可观的。但搜索解决方案无可避免的,会和开源的solr做比较,像searchblox的搜索功能,就不如solr的强大。如果使用solr和某个开源爬虫,搭起一个类searchblox的产品需要做的也就是admin console。当然,即便是开源的solr,用好它用对它也是需要功夫的,尤其是其在中文圈的资料较少,经验积累方面也较欠缺。

searchblox,再见!!!


=============================== 华丽的终止符 ================================

本文作者:kafka0102,转载文章请注明来源,谢谢!!
本文链接:http://www.kafka0102.com/2010/12/425.html


相关日志


留下评论

说明:评论需要审核通过才能显示