用Java抓取网站

时间:2010-07-07 18:10:12

标签: java screen-scraping robots.txt

我要做的是获取一个URL列表并下载每个URL的内容(用于索引)。最大的问题是,如果我遇到一个类似于facebook事件的链接,它只是重定向到登录页面,我需要能够检测并跳过该URL。似乎robots.txt文件就是为此而存在的。我查看了heritrix,但这似乎比我需要的更多。是否有一个更简单的工具可以提供有关robots.txt和scrape网站的相关信息?

(另外,我不需要关注其他链接并构建深层索引,我只需要索引列表中的各个页面。)

1 个答案:

答案 0 :(得分:1)