Wget提取链接并将其保存到文件中

时间:2015-11-02 09:51:22

标签: windows url grep extract wget

我需要从http://en.wikipedia.org/wiki下载所有页面链接,并使用一个命令(使用Wget for Windows)将它们保存到文件中。

在Windows下无法识别grep命令。

wget http://en.wikipedia.org/wiki -q -O - |grep -Po '(?<=href=")[^"]*'

文件中链接的输出不需要采用任何特定格式。

你推荐什么?

感谢

1 个答案:

答案 0 :(得分:1)

这里有多个问题:

  1. 工具可用性:默认情况下,Windows上不提供wgetgrep。虽然有很多端口,但请查看herehere
  2. HTTPS验证:维基百科从http://转发到https://,因此您很可能必须在呼叫中添加选项--no-check-certificate(或通过以下方式提供正确的证书存储--ca-certificate)。
  3. 在Windows中转义:要分隔参数,请勿使用单引号',而应使用双引号"。您必须在参数中转义任何双引号,例如\"
  4. 在Windows中转义:插入符号^必须像这样转义:^^
  5. 总而言之,这给了你:

    wget --no-check-certificate "http://en.wikipedia.org/wiki" -q -O - | grep -Po "(?<=href=\")[^^\"]*"