获取域下的所有网址(YQL?)

时间:2013-09-18 17:59:25

标签: screen-scraping sitemap yql

我想获取域名下的所有网址 当我看着他们的robots.txt。它清楚地说明了一些文件夹不适用于机器人,但我想知道是否有办法获得对机器人开放的所有网址。 robots.txt上没有站点地图。

例如,在他们的robots.txt上,它的信息看起来像这样:

User-agent: *
Allow: /
Disallow: /A/
Disallow: /B/
Disallow: /C/
...

但我对机器人可用的所有网址感兴趣但未包含在此黑名单中,例如

/contact
/welcome
/product1
/product2
...

任何想法都会被贬低,我也很好奇是否会有针对这个问题的雅虎查询语言(YQL)解决方案,因为这项工作可能已经由雅虎完成。

谢谢!

1 个答案:

答案 0 :(得分:1)

是的,有办法让所有网址都对机器人开放。

一个简单的解决方案是访问www.google.com并在搜索栏中输入site:www.website.com。

虽然这并不能保证每个页面都能获得它,但它会为您提供谷歌索引的所有页面。谷歌坚持robots.txt,所以它似乎符合你的目的。