任务详细信息:Java Web PDF搜寻器 工具:Eclipse
我想获得一个.pdf链接作为输出。如何在Java中获得它? 在抓取http://namastenepal.de之后,以下提到的内容应作为输出出现。 -http://namastenepal.de/menu_namaste_nepal_chemnitz_vegan_vegetarisch.pdf
从下面提到,它给出了所有html链接(href): http://www.netinstructions.com/how-to-make-a-simple-web-crawler-in-java/ 像这样一样,我想获取文件的输出。
请给我建议。
谢谢
答案 0 :(得分:1)
您可以使用crawler4j
(请参阅https://github.com/yasserg/crawler4j),并根据您的使用情况调整shouldVisit(...)
的{{1}}方法和visit(...)
中的WebCrawler.class
。
仅对于您给出的示例,它类似于:
@Override
public boolean shouldVisit(Page referringPage, WebURL url) {
String href = url.getURL().toLowerCase();
//only visit pages from namastenepal.de
return href.startsWith("http://namastenepal.de");
}
和
@Override
public void visit(Page page) {
String url = page.getWebURL().getURL();
//only process urls ending with .pdf after visting them...
if (url.endsWith(".pdf") {
//do something
}
}
请注意,您不能仅在.pdf
中包含shouldVisit(...)
,因为您需要使搜寻器能够遍历给定的网站以找到.pdf
链接。因此,它需要允许非.pdf
链接。