当目录列表停用时,有没有办法从Web服务器获取文件?

时间:2011-07-03 15:47:13

标签: .net webserver web-crawler

我尝试为每个文件构建一个“抓取工具”或“atuomatic下载器”,这是基于网络服务器/网页。

所以在我的观点中有两种方式:

1)启用目录列表。比起它很容易,读出列表中的数据并下载你看到的每个文件。

2)禁用目录列表。 然后怎样呢? 唯一的想法是强制文件名并查看服务器的反应(例如:404表示没有文件,403表示找到的目录,数据表示正确找到的数据)。

我的想法是对的吗?还有更好的方法吗?

2 个答案:

答案 0 :(得分:2)

您始终可以解析HTML并查看并跟踪('抓取')您获得的链接。这就是大多数抓取工具的实现方式。

检查这些库可以帮助您做到这一点:

  1. .NET:Html Agility Pack

  2. Python:Beautiful Soup

  3. PHP:HTMLSimpleDom

  4. 始终在网站的根目录中查找robots.txt,并确保您遵守网站有关允许抓取哪些网页的规则。

答案 1 :(得分:0)

您不应索引网站管理员阻止您访问的网页。

这就是Robots.txt的全部内容。

您应该检查SiteMap文件,每个文件夹中都有Here

它通常是sitemap.xml,有时它的名字在Robots.txt中提到