如何从多个网页下载文本到文件?

时间:2017-07-27 19:34:39

标签: linux bash console lynx

我正在尝试下载一本波兰语字典。不幸的是,existing files包含所有变形(不确定正确的英文单词是什么)。我发现了命令

lynx --dump https://sjp.pl/slownik/lp.phtml?f_vl=2&page=1 > file.txt

可以下载单个词典网页。然后,我必须以某种方式从文本块中仅提取字典条目,但至少它是一个开始。

不幸的是,我是一个Linux菜鸟,不知道如何迭代所有3067页。

1 个答案:

答案 0 :(得分:1)

未经测试,但您应该可以使用 GNU Parallel

快速轻松地完成此操作
parallel -qk 'lynx --dump https://sjp.pl/slownik/lp.phtml?f_vl=2&page={}' ::: {1..3067} > file.txt

如果它不起作用,请尝试删除单引号。如果这不起作用,请尝试在&之前加一个反斜杠。对不起,我现在没办法测试。

缓慢的方式是:

for ((i=1;i<3068;i++)) ; do
   lynx --dump ...page=$i
done > file.txt