Question

我正在使用wget（来自perl）从网站获取网页。我真的只对html，htm，php，asp，aspx文件类型感兴趣。但是，至少有一个站点使用没有扩展名/后缀的文件名提供了链接。我也需要那些。

我：

wget -A html,htm,php,asp,aspx

效果很好，除了没有后缀链接。

我尝试了许多正则表达式字符串来尝试获取无后缀页面，但无济于事。 wget只返回主页面。到目前为止，获取这些文件的唯一方法是将其打开到所有文件（这对于这个网站来说并不可怕，但对其他人来说会很糟糕）。

是否有正则表达式或常规方式来指定我想从没有后缀的wget链接？

Answer 1

wget版本1.14似乎支持一个--accept-regex参数，该参数与完整的URL匹配，即理论上应该是以下类似的工作（未经测试）：

wget --accept-regex '/[^.]+(?:\.(?:html?|php|aspx?))?$'

或许拒绝那些你不想要的扩展会更容易？