如何在Solr中索引HDFS pdf文件?

时间:2015-04-02 09:11:52

标签: hadoop indexing solr hdfs

  

hadoop jar jobjar / hadoop / hadoop-lws-job-1.2.0-0-0.jar   com.lucidworks.hadoop.ingest.IngestJob -Dlww.commit.on.close = true   -DcsvFieldMapping = 0 = id,1 = text -cls com.lucidworks.hadoop.ingest.CSVIngestMapper -c hdp1 -i   /user/solr/data/csv/mydata.csv -of   com.lucidworks.hadoop.io.LWMapRedOutputFormat -s   http://localhost:8983/solr

我尝试在命令中使用上面的代码来执行PDF文件,但是我得到了不希望的输出!

com.lucidworks.hadoop.ingest.CSVIngestMapper用于独占CSV文件,因此“PDF文件”有类似内容吗? 期待您的协助。

1 个答案:

答案 0 :(得分:0)

您应该使用DirectoryIngestMapper:

hadoop jar jobjar/hadoop/hadoop-lws-job-1.2.0-0-0.jar 
com.lucidworks.hadoop.ingest.IngestJob -Dlww.commit.on.close=true    
com.lucidworks.hadoop.ingest.DirectoryIngestMapper -c hdp1 -i 
/user/solr/data/pdf/*.pdf -of com.lucidworks.hadoop.io.LWMapRedOutputFormat -s 
http://localhost:8983/solr

假设/user/solr/data/pdf/*.pdf是你的pdf所在。