我有一个JAR文件,它有另一个JAR文件作为参数。问题是我想在依赖JAR文件上传递一个参数。
以下是我的命令:
hadoop jar /opt/lucidworks-hdpsearch/job/lucidworks-hadoop-job-2.0.3.jar com.lucidworks.hadoop.ingest.IngestJob
-Dlww.commit.on.close=true -Dlw.tika.process=true -libjars /opt/lucidworks-hdpsearch/lib/solr-hadoop-tika-2.2.5.jar
-cls com.lucidworks.hadoop.ingest.DirectoryIngestMapper -c collection1 -i /user/solr/documents/test.pdf
-of com.lucidworks.hadoop.io.LWMapRedOutputFormat -s http://localhost:8983/solr
我正在使用Hadoop Solr连接器来使用Solr并从HDFS索引一些文件。
这项工作需要lucidworks-hadoop-job-2.0.3.jar
。我将solr-hadoop-tika-2.2.5.jar
作为参数传递给此JAR,因为我拥有的文件是“丰富”文档。我需要Tika来提取这些文件的内容。
Tika默认从文档中提取内容和元数据。在我的情况下,我不想要元数据。如果我单独使用Tika,我可以做这样的事情:
java -jar /opt/lucidworks-hdpsearch/lib/solr-hadoop-tika-2.2.5.jar -T /user/solr/documents/test.pdf
这只会提取文档的内容。
当我使用Tika -T
时,我想提供lucidworks-hadoop-job-2.0.3.jar
参数。
有什么办法可以做到吗?