Java - 以编程方式获取与域名关联的每个网页

时间:2015-08-30 18:37:29

标签: java jsoup

我想创建一个用户输入URL的程序,程序会响应该域名下的每个网页。现在,我使用Jsoup来获取每个<a href>链接,但如果网站通过AngularJS或其他内容更改页面,则并不总是涵盖网站上的每个网页。关于如何最好地做到这一点的任何建议?

1 个答案:

答案 0 :(得分:1)

你不需要jsoup。只需导航到主持人的robots.txt

即可

https://stackoverflow.com/robots.txt

找到sitemap.xml

Sitemap: /sitemap.xml

对于SO,theirs is cached在Google上:

cache:https://stackoverflow.com/sitemap.xml

这将包含网站希望公开的所有链接。或者在SO的情况下,列出要扫描的其他站点地图。

https://stackoverflow.com/sitemap-questions-0.xml      
https://stackoverflow.com/sitemap-questions-1.xml 
https://stackoverflow.com/sitemap-questions-2.xml 
https://stackoverflow.com/sitemap-questions-3.xml 
https://stackoverflow.com/sitemap-questions-4.xml 
https://stackoverflow.com/sitemap-questions-5.xml 
https://stackoverflow.com/sitemap-questions-6.xml
....