我想获取一个网站的所有网页,例如bbc网站(bbc.co.uk),它会得到http://www.bbc.co.uk/news/,http://www.bbc.co.uk/weather/等。
我可以想到这样做的一种方法是从主页开始并收集所有链接,并在主页上的每个链接网页上执行相同的收集。基本上,最终目标是为任何网站生成站点地图。
有没有人有比这更有效的其他解决方案?
感谢。
答案 0 :(得分:1)
硒可用于实现相同的
WebDriver driver = new FirefoxDriver();
driver.load("http://bbc.co.uk");
// get all links from page
List<WebElement> links = driver.findElements(By.tagName("a"));
for(WebElement link : links){
// Store link and do something
}
答案 1 :(得分:0)
我发现了一个免费的&amp;用java编写的开源站点地图生成器,你可以在这里修改......