标签: java screen-scraping robots.txt
我要做的是获取一个URL列表并下载每个URL的内容(用于索引)。最大的问题是,如果我遇到一个类似于facebook事件的链接,它只是重定向到登录页面,我需要能够检测并跳过该URL。似乎robots.txt文件就是为此而存在的。我查看了heritrix,但这似乎比我需要的更多。是否有一个更简单的工具可以提供有关robots.txt和scrape网站的相关信息?
(另外,我不需要关注其他链接并构建深层索引,我只需要索引列表中的各个页面。)
答案 0 :(得分:1)
你可以参加你感兴趣的课程,即http://crawler.archive.org/xref/org/archive/crawler/datamodel/Robotstxt.html