如何使用Solr索引目录中的所有csv文件?

时间:2015-07-31 01:15:57

标签: hadoop indexing solr cloudera solrcloud

给定一个包含数百个制表符分隔的csv文件的目录,每个文件在第一行中不包含任何标题。这意味着我们将通过其他方式指定列名。这些文件可以位于本地磁盘或HDFS上。

索引这些文件的最有效方法是什么?

1 个答案:

答案 0 :(得分:1)

如果你有很多文件,我认为有几种方法可以提高索引速度:

首先,如果你的数据在本地磁盘上,你可以构建索引使用多线程,但需要注意,每个线程都有自己的输出目录索引。最后将它们合并到一个索引中,以提高搜索速度。

第二,如果你的数据在HDFS上,我认为使用Hadoop MapReduce来构建索引是非常强大的。 另外,Pig或Hive的一些UDF插件也可以轻松构建索引,但是 你需要将数据转换成蜂巢表或制作猪模式,这很简单!

第三,为了更好地理解上述方法,也许你可以阅读 How to make indexing faster