在DFS中索引数据

时间:2014-06-27 07:50:00

标签: solr hdfs cloudera flume

我已使用命令hadoop fs -put将数据加载到HDFS中。数据包含丰富的文档,如PDF,doc和文本文件。我如何索引这些数据,以便我能够在Solr中查询它?

1 个答案:

答案 0 :(得分:0)

使用apache Tika。它的创建是为了从丰富的文件格式(如pdf或doc)中提取文本和元数据。 Solr附带了包含tika的jar,所以你需要做的就是快速查看使用jar作为命令行实用程序的说明,你可以去:http://tika.apache.org/1.5/gettingstarted.html