如何让wget接受没有后缀的文件

时间:2013-05-03 16:00:00

标签: regex wget

我正在使用wget(来自perl)从网站获取网页。我真的只对htmlhtmphpaspaspx文件类型感兴趣。但是,至少有一个站点使用没有扩展名/后缀的文件名提供了链接。我也需要那些。

我:

wget -A html,htm,php,asp,aspx

效果很好,除了没有后缀链接。

我尝试了许多正则表达式字符串来尝试获取无后缀页面,但无济于事。 wget只返回主页面。到目前为止,获取这些文件的唯一方法是将其打开到所有文件(这对于这个网站来说并不可怕,但对其他人来说会很糟糕)。

是否有正则表达式或常规方式来指定我想从没有后缀的wget链接?

1 个答案:

答案 0 :(得分:1)

wget版本1.14似乎支持一个--accept-regex参数,该参数与完整的URL匹配,即理论上应该是以下类似的工作(未经测试):

wget --accept-regex '/[^.]+(?:\.(?:html?|php|aspx?))?$'

或许拒绝那些你不想要的扩展会更容易?