Question

任务详细信息：Java Web PDF搜寻器工具：Eclipse

我想获得一个.pdf链接作为输出。如何在Java中获得它？在抓取http://namastenepal.de之后，以下提到的内容应作为输出出现。 -http://namastenepal.de/menu_namaste_nepal_chemnitz_vegan_vegetarisch.pdf

从下面提到，它给出了所有html链接（href）： http://www.netinstructions.com/how-to-make-a-simple-web-crawler-in-java/ 像这样一样，我想获取文件的输出。

请给我建议。

谢谢

Answer 1

您可以使用crawler4j（请参阅https://github.com/yasserg/crawler4j），并根据您的使用情况调整shouldVisit(...)的{{1}}方法和visit(...)中的WebCrawler.class。

仅对于您给出的示例，它类似于：

 @Override
 public boolean shouldVisit(Page referringPage, WebURL url) {
     String href = url.getURL().toLowerCase();
     //only visit pages from namastenepal.de
     return href.startsWith("http://namastenepal.de");
 }

和

 @Override
 public void visit(Page page) {
     String url = page.getWebURL().getURL();

     //only process urls ending with .pdf after visting them...
     if (url.endsWith(".pdf") {
         //do something
     }
}

请注意，您不能仅在.pdf中包含shouldVisit(...)，因为您需要使搜寻器能够遍历给定的网站以找到.pdf链接。因此，它需要允许非.pdf链接。

如何实现Java搜寻器来搜寻PDF文件链接？

1 个答案: