Google字频的免费数据库?

时间:2008-12-04 09:20:17

标签: search word-frequency

在本周的Stackoverflow播客中,Jeff提到他在2004年编写了一个脚本,用110,000个英文单词向Google查询,并收集了一个包含每个单词的点击次数的数据库。他们在Stackoverflow上使用它,例如对于每个问题页面右侧的“相关”列表。

由于今天使用类似的脚本创建其中一个将是困难的(正如Joel所说,“在你的门上敲了30,000个单词”),我想知道是否有人知道更新,谷歌单词频率的免费数据库(例如,自那时起肯定发生变化的IT单词,如jquery,ruby,azure等)。

4 个答案:

答案 0 :(得分:4)

快速谷歌搜索(!)出现了几次点击。这个link看起来很有希望:

但它并非针对IT词汇。

答案 1 :(得分:2)

回答这个问题可能会迟到,但我可以提出不同的建议。 而不是从谷歌获得“点击次数”来自己计算一些近似值。获取大量文本页面(语料库)并计算其中每个单词的数量。 我用维基百科做了这个。所有维基页面都有转储。你只需要编写一个解析器来提取文本和计算单词。结果是超过110K字(至少2M-3M)的列表。 如果您确实需要Google搜索结果中的数字,您可以获取一些单词样本并查询Google,然后对计算值进行一些标准化以匹配Google值。 我希望这有帮助。

答案 2 :(得分:1)

根据谷歌的说法,每个IP每天可以发送50,000个查询。我真的不认为把它分给你的朋友是违法的。

每个IP每天的查询都有类似的问题,但我们通过完全不同的方法解决了这个问题。

答案 3 :(得分:0)

您可以在朋友/同事之间拆分列表并使用足够大的超时时间,这样每个IP每天不会超过50,000个请求,然后合并结果。我不确定这种方法的合法性,但使用这种方法让谷歌人“敲门”的可能性非常低。

注意:根据Skuta提供的数据进行编辑