我正在使用wget
(来自perl)从网站获取网页。我真的只对html
,htm
,php
,asp
,aspx
文件类型感兴趣。但是,至少有一个站点使用没有扩展名/后缀的文件名提供了链接。我也需要那些。
我:
wget -A html,htm,php,asp,aspx
效果很好,除了没有后缀链接。
我尝试了许多正则表达式字符串来尝试获取无后缀页面,但无济于事。 wget只返回主页面。到目前为止,获取这些文件的唯一方法是将其打开到所有文件(这对于这个网站来说并不可怕,但对其他人来说会很糟糕)。
是否有正则表达式或常规方式来指定我想从没有后缀的wget链接?
答案 0 :(得分:1)
wget版本1.14似乎支持一个--accept-regex
参数,该参数与完整的URL匹配,即理论上应该是以下类似的工作(未经测试):
wget --accept-regex '/[^.]+(?:\.(?:html?|php|aspx?))?$'
或许拒绝那些你不想要的扩展会更容易?