分布式搜索方案选型之四：Solr+Katta

laigood

7958人浏览 · 2012-03-14 21:33:04

laigood · 2012-03-14 21:33:04 发布

一个叫katta的开源项目进入我的视线，它是一个分布式索引建立和管理工具，底层是hadoop的hdfs分布式文件系统，hadoop是当今云计算的热门使用项目，由apatch开源是一个海量数据的处理和存储方案，它的主要核心就是它的hdfs分布式文件存储系统和mapreduce算法，它们分别是google论文中的gfs和mapreduce的开源实现。目前大公司的云计算平台基本上都是基于它来搭建的。因为我之前在学校做的一个搜索引擎项目也是基于它的，所以我对它还是比较熟悉的，通过之前写过的自动化部署脚本，我很快就搭起了一个由4台机器组成的hadoop集群，每台机160G的硬盘，乘于4的话就是640G了，而且这640G还是一个整体来的哦，以后如果空间不够了，或者运算能力不够了的话就直接加机器就行了，使用hadoop可以非常容易的提高整个系统的运算能力，google的核心技术之一就它了。而katta这个项目只是个lucene的索引管理工具，通过hadoop的mapreduce算法来批量建立索引，它的很大部分特性都是参考了nutch（一个基于hadoop的开源爬虫项目），它提供的搜索功能很弱，只有最基本的查询方法，一些高级的如：分组，统计，范围查询都没有的，于是试试看看能否把它和solr进行集成，因为solr提供了很强大的搜索功能，网上搜索发现有人已经研究实现它了，就是这个帖子https://issues.apache.org/jira/browse/SOLR-1395，不过配置过程极其复杂，而且还要该很多的源码，我看那帖子是从10年就开始了的，他们的讨论已经持续一年多了，貌似还没有什么结果，可见难度还是比较大的。就没有深入去了解。

katta官网：http://katta.sourceforge.net/