标签: java solr lucene apache-pig apache-tika
我正在尝试将pdf转换为缩略图并将该数据保存到Solr中如果可能,请帮助我们吗?
答案 0 :(得分:1)
但是为什么MapReduce。 你需要首先使用tika提取pdf参考下面的链接
http://www.tutorialspoint.com/tika/tika_extracting_pdf.htm
获取metedata名称及其值并创建JSON。
pdftitle:两个州
作者:chetan bhagat
到
{ “pdftitle”:“两个州”, “作者”:“chetan bhagat” }