Question

我需要从http://en.wikipedia.org/wiki/Meme下载所有页面链接，并使用一个命令将它们保存到一个文件中。

首次使用命令行，所以我不确定要使用的确切命令，标志等。我只知道要做什么，不得不四处寻找href的含义。

wget http://en.wikipedia.org/wiki/Meme -O links.txt | grep 'href=".*"' | sed -e 's/^.*href=".*".*$/\1/'

文件中链接的输出不需要采用任何特定格式。

Answer 1

使用gnu grep：

grep -Po '(?<=href=")[^"]*' links.txt

或与wget

wget http://en.wikipedia.org/wiki/Meme -q -O - |grep -Po '(?<=href=")[^"]*'

Answer 2

您可以使用wget的蜘蛛模式。请参阅此SO答案以获取示例。

Answer 3

wget http://en.wikipedia.org/wiki/Meme -O links.txt | sed -n 's/.*href="\([^"]*\)".*/\1/p'

但是每行仅需要1 href，如果超过1，则其他丢失（与原始行相同）。您还忘记在原始sed第一个模式中有一个组（\( - ＆gt; \)），因此\1没有任何参考