Question

我想获取域名下的所有网址当我看着他们的robots.txt。它清楚地说明了一些文件夹不适用于机器人，但我想知道是否有办法获得对机器人开放的所有网址。 robots.txt上没有站点地图。

例如，在他们的robots.txt上，它的信息看起来像这样：

User-agent: *
Allow: /
Disallow: /A/
Disallow: /B/
Disallow: /C/
...

但我对机器人可用的所有网址感兴趣但未包含在此黑名单中，例如

/contact
/welcome
/product1
/product2
...

任何想法都会被贬低，我也很好奇是否会有针对这个问题的雅虎查询语言（YQL）解决方案，因为这项工作可能已经由雅虎完成。

谢谢！

Answer 1

是的，有办法让所有网址都对机器人开放。

一个简单的解决方案是访问www.google.com并在搜索栏中输入site：www.website.com。

虽然这并不能保证每个页面都能获得它，但它会为您提供谷歌索引的所有页面。谷歌坚持robots.txt，所以它似乎符合你的目的。