我想知道是否可以列出网站的网址。这些URL是托管zip文件的URL,如果您正确提供它们,将下载文件。如果没有,您将被引导至404页面。
例如,如果主网站为https://myexample.net/
,我对https://myexample.net/wp-content/uploads/2018/04/[do not have a pattern].zip
下的文件感兴趣。我尝试访问https://myexample.net/wp-content/uploads/2018/04/
,但获得了404 error
。
此外,我检查了https://myexample.net/sitemap_index.xml
,但没有找到我感兴趣的网址。所以问题是如何guess
这些网址...感谢任何建议!
答案 0 :(得分:1)
您是否尝试使用sitemap generator?
还有一个python库:https://pypi.python.org/pypi/sitemap-generator/0.5.2
如果您不想编码,还有浏览器插件可以执行此操作,例如" u选择iDownload"适用于Chrome的工具。
答案 1 :(得分:1)
我想知道是否可以从网站列出网址?
现在,如果您正在谈论特定网站或任何通用网站。
我已经使用Scrapy进行了大量的刮擦。以下是我的经历
总而言之,站点地图可以很好地生成种子网址列表,但它们由网站管理员控制,他们可能会或可能会更新站点地图。因此,如果您真的想要一个网址列表,则需要使用抓取功能。如果您不想使用相同的代码,那么您可以查看以下线程中讨论的几种方法
Spider a Website and Return URLs Only
如果你想进行编码我会建议你看一下Scrapy