我尝试为每个文件构建一个“抓取工具”或“atuomatic下载器”,这是基于网络服务器/网页。
所以在我的观点中有两种方式:
1)启用目录列表。比起它很容易,读出列表中的数据并下载你看到的每个文件。
2)禁用目录列表。 然后怎样呢? 唯一的想法是强制文件名并查看服务器的反应(例如:404表示没有文件,403表示找到的目录,数据表示正确找到的数据)。
我的想法是对的吗?还有更好的方法吗?
答案 0 :(得分:2)
您始终可以解析HTML并查看并跟踪('抓取')您获得的链接。这就是大多数抓取工具的实现方式。
检查这些库可以帮助您做到这一点:
.NET:Html Agility Pack
Python:Beautiful Soup
PHP:HTMLSimpleDom
始终在网站的根目录中查找robots.txt,并确保您遵守网站有关允许抓取哪些网页的规则。
答案 1 :(得分:0)
您不应索引网站管理员阻止您访问的网页。
这就是Robots.txt的全部内容。
您应该检查SiteMap
文件,每个文件夹中都有Here
它通常是sitemap.xml,有时它的名字在Robots.txt中提到