从具有重命名的网页下载链接

时间:2011-07-03 00:15:17

标签: html linux rename wget

我正在尝试找到一种从网页自动下载所有链接的方法,但我也想重命名它们。例如:

<a href = fileName.txt> Name I want to have </a>

我希望能够获得一个名为“我想拥有的名字”的文件(我不担心扩展名)。

我知道我可以获取页面源,然后解析所有链接,并手动下载它们,但我想知道是否有任何内置工具。

lynx --dump | grep http:// | cut -d ' ' -f 4

将打印所有可以使用wget批量提取的链接 - 但有没有办法动态重命名链接?

2 个答案:

答案 0 :(得分:1)

我怀疑开箱即用的是什么。我建议你用Python或类似的方式编写一个脚本来下载页面,并加载源代码(尝试使用Beautiful Soup库进行宽容分析)。然后,这是一个简单的问题,遍历源以捕获链接及其属性和文本,并下载具有所需名称的文件。除了Beautiful Soup(如果您需要能够解析草率的HTML),您需要的只是内置Python。

答案 1 :(得分:0)

我通过在第一次传递时将网页完全转换为unicode解决了这个问题(使用notepad ++的内置转换)

然后我编写了一个小shell脚本,使用cat,awk和wget来获取所有数据。

不幸的是,我无法自动完成这个过程,因为我找不到任何可以将整个页面从KOI8-R转换为unicode的linux工具。