搜索网站中的所有文件

时间:2015-01-26 16:36:52

标签: html web-scraping

我正在开展一个项目,我需要在该项目中查找网站中的所有文件。例如,我的网页包含index.html和PDF文件。 其他人如何知道我的网站域名中有PDF文件?

1 个答案:

答案 0 :(得分:0)

你需要某种刮刀。
ex)http://scrapy.org/

您可以通过链接浏览网页。

如果您将页面视为节点并将链接视为子项 您可以轻松覆盖该网站的所有文件。

如果该特定网站显示其网页中的每个链接,
这种方法是可行的,如果没有,那么你必须使用
搜索引擎等其他方法可以查看其索引页面。