Question

我想获取一个网站的所有网页，例如bbc网站（bbc.co.uk），它会得到http://www.bbc.co.uk/news/，http://www.bbc.co.uk/weather/等。

我可以想到这样做的一种方法是从主页开始并收集所有链接，并在主页上的每个链接网页上执行相同的收集。基本上，最终目标是为任何网站生成站点地图。

有没有人有比这更有效的其他解决方案？

感谢。

Answer 1

硒可用于实现相同的

WebDriver driver = new FirefoxDriver();
driver.load("http://bbc.co.uk");
// get all links from page
List<WebElement> links = driver.findElements(By.tagName("a"));
for(WebElement link : links){
   // Store link and do something
}

Answer 2

我发现了一个免费的＆amp;用java编写的开源站点地图生成器，你可以在这里修改......

Java-Open Source- SiteMap Generator Code

Java获取任何网站的所有网页（站点地图）

2 个答案: