Java获取任何网站的所有网页(站点地图)

时间:2014-04-01 10:14:19

标签: java html sitemap

我想获取一个网站的所有网页,例如bbc网站(bbc.co.uk),它会得到http://www.bbc.co.uk/news/http://www.bbc.co.uk/weather/等。

我可以想到这样做的一种方法是从主页开始并收集所有链接,并在主页上的每个链接网页上执行相同的收集。基本上,最终目标是为任何网站生成站点地图。

有没有人有比这更有效的其他解决方案?

感谢。

2 个答案:

答案 0 :(得分:1)

硒可用于实现相同的

WebDriver driver = new FirefoxDriver();
driver.load("http://bbc.co.uk");
// get all links from page
List<WebElement> links = driver.findElements(By.tagName("a"));
for(WebElement link : links){
   // Store link and do something
}

答案 1 :(得分:0)

我发现了一个免费的&amp;用java编写的开源站点地图生成器,你可以在这里修改......

Java-Open Source- SiteMap Generator Code