在bash中获取随机站点链接

时间:2012-08-04 13:49:14

标签: linux bash

  

可能重复:
  Get random site names in bash

我正在为大学制作一个程序,必须在网上找到这些单词的出现。我需要制作一个算法来查找网站并计算使用过的单词数量,然后记录它们并根据它们的使用次数进行排序。因此我的程序检查的网站越多越好。首先,我在考虑计算随机IP,但问题是这个过程真的太多了(我整个晚上离开了计算机搜索,它只发现了15个站点)。我想这是因为网站的IP不是均匀分布在网络上,大多数IP都属于用户或其他服务。现在我有了一对新的方法,我想知道你们的想法:

如果我通过谷歌使用某种词典进行随机搜索怎么办?字典在开始时将开始为空,每次执行搜索时,我都会检查一个站点并仅将字典添加到字典中,这样就不会再次通过破坏事件将我发送到该站点。

这很容易吗?

我想要做的第一件事就是在谷歌搜索中搜索随机页面,而不仅仅是第一个,这怎么办?我无法弄清楚如何计算该搜索的最大页数以及如何直接转到特定页面

感谢

1 个答案:

答案 0 :(得分:0)

虽然我认为您不能(或应该)仅在bash中执行此操作,但请查看Google Custom Search APIthis question。它允许以编程方式直接查询Google搜索。

至于要使用哪些查询,你可以从字典文件中随机选择单词 - 虽然这不会给你一个统一的分布,因为像'cat'这样的单词比'epichorial',比方说。如果你需要考虑到这些差异的东西,你可以使用word frequency dictionary,虽然这似乎是你自己研究的重点,所以也许这不合适。