使用wget抓取特定的网址

时间:2016-04-19 01:27:57

标签: regex web-crawler wget

我正在尝试从网站抓取链接,然后使用下载管理器下载文件。

我试过了:

wget --wait=20 --limit-rate=20K -r -p -U Mozilla "www.mywebsite.com"

我无法弄清楚如何使用wget或正则表达式来保存所需的链接!

1 个答案:

答案 0 :(得分:2)

wget提供了多种选项,可以在递归爬网中精确调整文件下载。

以下是一些您可能感兴趣的选项:

  • --accept-regex urlregex

下载与 urlregex 匹配的任何网址。 urlregex 是一个正则表达式,与完整的URL匹配。

  • --reject-regex urlregex

忽略与 urlregex 匹配的任何网址。 urlregex 是一个正则表达式,与完整的URL匹配。

  • -L

告诉wget只关注相关链接。

相关链接示例:

<a href="foo.gif">
<a href="foo/bar.gif">
<a href="../foo/bar.gif">

非相关链接:

<a href="/foo.gif">
<a href="/foo/bar.gif">
<a href="http://www.server.com/foo/bar.gif">

参考