Question

我正在尝试找到一种从网页自动下载所有链接的方法，但我也想重命名它们。例如：

<a href = fileName.txt> Name I want to have </a>

我希望能够获得一个名为“我想拥有的名字”的文件（我不担心扩展名）。

我知道我可以获取页面源，然后解析所有链接，并手动下载它们，但我想知道是否有任何内置工具。

lynx --dump | grep http:// | cut -d ' ' -f 4

将打印所有可以使用wget批量提取的链接 - 但有没有办法动态重命名链接？

Answer 1

我怀疑开箱即用的是什么。我建议你用Python或类似的方式编写一个脚本来下载页面，并加载源代码（尝试使用Beautiful Soup库进行宽容分析）。然后，这是一个简单的问题，遍历源以捕获链接及其属性和文本，并下载具有所需名称的文件。除了Beautiful Soup（如果您需要能够解析草率的HTML），您需要的只是内置Python。

Answer 2

我通过在第一次传递时将网页完全转换为unicode解决了这个问题（使用notepad ++的内置转换）

然后我编写了一个小shell脚本，使用cat，awk和wget来获取所有数据。

不幸的是，我无法自动完成这个过程，因为我找不到任何可以将整个页面从KOI8-R转换为unicode的linux工具。

从具有重命名的网页下载链接

2 个答案: