如何实现Java搜寻器来搜寻PDF文件链接?

时间:2018-06-26 14:01:12

标签: java web-crawler

任务详细信息:Java Web PDF搜寻器 工具:Eclipse

我想获得一个.pdf链接作为输出。如何在Java中获得它? 在抓取http://namastenepal.de之后,以下提到的内容应作为输出出现。 -http://namastenepal.de/menu_namaste_nepal_chemnitz_vegan_vegetarisch.pdf

从下面提到,它给出了所有html链接(href): http://www.netinstructions.com/how-to-make-a-simple-web-crawler-in-java/ 像这样一样,我想获取文件的输出。

请给我建议。

谢谢

1 个答案:

答案 0 :(得分:1)

您可以使用crawler4j(请参阅https://github.com/yasserg/crawler4j),并根据您的使用情况调整shouldVisit(...)的{​​{1}}方法和visit(...)中的WebCrawler.class

仅对于您给出的示例,它类似于:

 @Override
 public boolean shouldVisit(Page referringPage, WebURL url) {
     String href = url.getURL().toLowerCase();
     //only visit pages from namastenepal.de
     return href.startsWith("http://namastenepal.de");
 }

 @Override
 public void visit(Page page) {
     String url = page.getWebURL().getURL();

     //only process urls ending with .pdf after visting them...
     if (url.endsWith(".pdf") {
         //do something
     }
}

请注意,您不能仅在.pdf中包含shouldVisit(...),因为您需要使搜寻器能够遍历给定的网站以找到.pdf链接。因此,它需要允许非.pdf链接。