我有一个大约300,000字的文本文件。每个单词都是5个字母。
我希望能够确定每个单词在互联网上的独特性。
我的想法是谷歌这个词,看看它产生了多少结果。不幸的是,这违反了他们的服务条款。
我试图想到其他任何方式,但它必须涉及查询一些网站,我怀疑他们会非常感激。
有没有其他想法?编程语言并不重要,但我更喜欢C#。
答案 0 :(得分:2)
如果您的单词不包含俚语,我建议您查看public domain books。这里的问题是,这些书中的大多数都会比较旧,所以你真的会在一个单词的流行程度(或者我猜的是)中获得快照。好的一面是,这些书籍可以文本文件格式免费获取,使您可以轻松地挖掘它们的数据。
有一点需要注意,如果您在美国并计划使用Project Gutenberg来获取图书,则他们会规定该网站仅供人类用户使用。有page that tells you how to get the same data via mirror。
答案 1 :(得分:2)
要查看“书籍”中的频率,您可以使用Google Ngram dataset,但这不是“互联网”。如果这是出于学术目的,Bing alternative也可能有用,它基于互联网频率。