我目前正在使用crawler4j抓取网站并返回页面网址和该网页的父网页网址。我使用的基本爬虫工作正常,除了它没有返回PDF。 我知道它抓取了PDF,因为我已经检查了在添加过滤器和pdf显示之前它爬行的内容。当PDF进入
时,它似乎消失/跳过了public void visit(Page page){
我不知道为什么会这样做。 谁能帮我这个? 这将不胜感激! 感谢
答案 0 :(得分:3)
这是非常及时的,我实际上是在解决同样的问题,并遇到了完全相同的问题。我在shouldVisit中为PDF网址返回true,但是我没有看到它们像你一样出现在访问(页面页面)中。我将源跟踪到了CrawlConfig:
config.setIncludeBinaryContentInCrawling(true)
将其设置为true将导致PDF显示在visit方法中。虽然看起来像读取二进制数据必须在实现者的一方使用Apache PDFBox或Apache Tika(或其他一些PDF库)来完成。希望这会有所帮助。