假设我们有一个名为http://www.example.com
的网站。我想得到一个URI页面列表(只是URL本身,而不是这些URL中的URL) - 要么全部(包括所有子域和所有子页面),要么只是其中一些提供它们遵循特定的globbing和/或正则表达式。
因此,例如,我正在寻找能够获得遵循http://*.example.com/*
等模式的所有URL(只是URL地址本身)的内容。我知道Linux中的通配(例如通过shell)(大部分或完全?)仅限于本地文件和目录(如果我错了,请纠正我)。
我怎样才能做到这一点?
我想这里讨论了相关的东西(虽然不完全相同?):How to find all links / pages on a website。
P.S。所有网址都是仅由静态网页构成的网站的一部分。我不确定是否可以对由动态网页构成的网站做同样的事情...另外,我不确定是否有任何带有查询字符串的网址(例如http://www.example.com/?=abc&xyz
)可以是以这种方式捕获。