标签: html web-scraping
我正在开展一个项目,我需要在该项目中查找网站中的所有文件。例如,我的网页包含index.html和PDF文件。 其他人如何知道我的网站域名中有PDF文件?
答案 0 :(得分:0)
你需要某种刮刀。 ex)http://scrapy.org/
您可以通过链接浏览网页。
如果您将页面视为节点并将链接视为子项 您可以轻松覆盖该网站的所有文件。
如果该特定网站显示其网页中的每个链接, 这种方法是可行的,如果没有,那么你必须使用 搜索引擎等其他方法可以查看其索引页面。