我正在使用Apache-nutch 1.6,我的要求是将PDF文档抓取为.pdf文件本身,但我无法将pdf文件作为文本本身抓取。 在我的nutch-site.xml中,我只给http.agent.name,http.robots.name,http.proxy.host ..我应该添加任何东西...... 在我的插件中,我只有parse-tika,还有什么可以添加......如果是这样建议我链接......
我可以抓取.html但是.pdf文件没有parsetext ....
错误: parse.ParseUtil - 无法成功解析application / pdf类型的内容http://nutch.apache.orgmailing_lists.pdf parse.ParseSegment - 解析时出错:http://nutch.apache.org/mailing_lists.pdf:失败(2,200):org.apache.nutch.parse.ParseException:无法成功解析内容
提前致谢....
答案 0 :(得分:2)
据我所知...检查pdpage.class(此类路径:pdfbox-app-1.8.2 / org / apache / pdfbox / pdmodel / PDPage.class)是否包含您的pdfbox。它是您的问题所必需的。