Question

我目前正在使用crawler4j抓取网站并返回页面网址和该网页的父网页网址。我使用的基本爬虫工作正常，除了它没有返回PDF。我知道它抓取了PDF，因为我已经检查了在添加过滤器和pdf显示之前它爬行的内容。当PDF进入

时，它似乎消失/跳过了

public void visit（Page page）{

我不知道为什么会这样做。谁能帮我这个？这将不胜感激！感谢

Answer 1

这是非常及时的，我实际上是在解决同样的问题，并遇到了完全相同的问题。我在shouldVisit中为PDF网址返回true，但是我没有看到它们像你一样出现在访问（页面页面）中。我将源跟踪到了CrawlConfig：

config.setIncludeBinaryContentInCrawling(true)

将其设置为true将导致PDF显示在visit方法中。虽然看起来像读取二进制数据必须在实现者的一方使用Apache PDFBox或Apache Tika（或其他一些PDF库）来完成。希望这会有所帮助。