我想创建一个用户输入URL的程序,程序会响应该域名下的每个网页。现在,我使用Jsoup来获取每个<a href>
链接,但如果网站通过AngularJS或其他内容更改页面,则并不总是涵盖网站上的每个网页。关于如何最好地做到这一点的任何建议?
答案 0 :(得分:1)
你不需要jsoup。只需导航到主持人的robots.txt
https://stackoverflow.com/robots.txt
找到sitemap.xml
。
Sitemap: /sitemap.xml
对于SO,theirs is cached在Google上:
cache:https://stackoverflow.com/sitemap.xml
这将包含网站希望公开的所有链接。或者在SO的情况下,列出要扫描的其他站点地图。
https://stackoverflow.com/sitemap-questions-0.xml
https://stackoverflow.com/sitemap-questions-1.xml
https://stackoverflow.com/sitemap-questions-2.xml
https://stackoverflow.com/sitemap-questions-3.xml
https://stackoverflow.com/sitemap-questions-4.xml
https://stackoverflow.com/sitemap-questions-5.xml
https://stackoverflow.com/sitemap-questions-6.xml
....