我需要从http://en.wikipedia.org/wiki下载所有页面链接,并使用一个命令(使用Wget for Windows)将它们保存到文件中。
在Windows下无法识别grep命令。
wget http://en.wikipedia.org/wiki -q -O - |grep -Po '(?<=href=")[^"]*'
文件中链接的输出不需要采用任何特定格式。
你推荐什么?
感谢
答案 0 :(得分:1)
这里有多个问题:
wget
和grep
。虽然有很多端口,但请查看here和here。http://
转发到https://
,因此您很可能必须在呼叫中添加选项--no-check-certificate
(或通过以下方式提供正确的证书存储--ca-certificate
)。'
,而应使用双引号"
。您必须在参数中转义任何双引号,例如\"
。^
必须像这样转义:^^
。总而言之,这给了你:
wget --no-check-certificate "http://en.wikipedia.org/wiki" -q -O - | grep -Po "(?<=href=\")[^^\"]*"