Wget Curl - 下载整个网站并运行concordance

时间:2015-12-18 18:40:33

标签: python bash curl wget julia

这可能是一个奇怪的问题,但我正在尽力拍摄。

要点: 我有一个程序(用Bash和Julia编写),它将输出给定文本集(在文件中)的一致性输出,即你传递文件,它将输出一致的输出,如(子弹的缩进) #s我稍后会照顾):

a. word1 (1001 times), occurred in sentence {2,5,7,11,12,51,122, 711,881,884,.. etc}
aa. word2 (98 times), occurred in sentence {55,77,79,80,81,110, 121,281,284,.. etc}
..
..
az. wordN (12001 times), occurred in sentence {<listofNumbers_comma_separated>}
aa. wordN1 (55 times), occurred in sentence {<listofNumbers_comma_separated>}
ab. wordN2 (4 times), occurred in sentence {<listofNumbers_comma_separated>}
..
..
az. wordNM (995 times), occurred in sentence {<listofNumbers_comma_separated>}
aba. wordNN (15 times), occurred in sentence {<listofNumbers_comma_separated>}
abb. wordNO (25 times), occurred in sentence {<listofNumbers_comma_separated>}
..
..
abz. wordNP (20 times), occurred in sentence {<listofNumbers_comma_separated>}
aca. wordNQ (220 times), occurred in sentence {<listofNumbers_comma_separated>}
acb. wordNQ (220 times), occurred in sentence {<listofNumbers_comma_separated>}
..
..
acz. wordNQ (2220 times), occurred in sentence {<listofNumbers_comma_separated>}
ada. wordNQ (55 times), occurred in sentence {<listofNumbers_comma_separated>}
..
..
and so on..

每个项目符号都有一个唯一的单词(在正则表达式后面,用于确定是否有三个不同的单词,或者是否可以将签到处理为2个单词(check and in)。用户可以调整正则表达式在配置文件中定义,以获得子弹所需的单词。这一切都正常。 类似地,句子具有各种正则表达式,用于确定句子是否以“。”结尾。要么 ';'或'\ n'等。再次,一致性工作正常。

我的问题:

  1. 我想使用wget / curl从站点中获取所有文本(仅限)(整个数据)而不进入无限循环(读取另一个链接并进行无限循环的链接)。看到http://www.labnol.org/software/wget-command-examples/28750/http://xahlee.info/linux/wget_curl_tutorial.html以及http://linuxreviews.org/quicktips/wget/
  2. 我想像 wget -m -l 7 -t 2 -w 2 http://www.website.com这样的事情(如果需要,调整-l#),但是有没有可以提高检索内容的性能的选项?

    1. 如何查找WWW(万维网)中可用的所有网站列表?它是否可用于我可以按顺序/并行方式运行wget的地方?
    2. 最终目标(为了好玩,但实际上我真的很好奇)是在每个这样的网站文件上运行一致性,网站允许你以某种方式读取数据/文本(结合我的脚本是参数驱动在所输入的每个文件上运行一致性或在包含在万维网中的每个站点上包含其中包含文本的文件列表的文件。好吧,这可能吓到某人,但我认为这并非不可能。

      到目前为止,运行我的程序阅读整个SVN红皮书电子书/圣经/在线小说工作得很好(2-10秒),但现在我想在WWW网站内容上利用它。我随机检查了一些罕见的单词(附录),它们与一致脚本/程序生成的输出相匹配。

      是否有人在最小规模上尝试过此操作,即仅在公司网站上或在所有以.in(印度)等结尾的网站上进行协调。

0 个答案:

没有答案