应用错误收集

我正在使用Apache-nutch 1.6，我的要求是将PDF文档抓取为.pdf文件本身，但我无法将pdf文件作为文本本身抓取。在我的nutch-site.xml中，我只给http.agent.name，http.robots.name，http.proxy.host ..我应该添加任何东西...... 在我的插件中，我只有parse-tika，还有什么可以添加......如果是这样建议我链接......

我可以抓取.html但是.pdf文件没有parsetext ....

错误： parse.ParseUtil - 无法成功解析application / pdf类型的内容http://nutch.apache.orgmailing_lists.pdf parse.ParseSegment - 解析时出错：http://nutch.apache.org/mailing_lists.pdf：失败（2,200）：org.apache.nutch.parse.ParseException：无法成功解析内容

提前致谢....

如何使用Nutch 1.6抓取PDF文档？

1 个答案: