Google Ngram Viewer - 英语100万

时间:2018-02-16 16:20:42

标签: dictionary nlp words n-gram pytorch

我在PyTorch培训语言模型,我需要最常用的100万个英语单词作为字典。

根据我的理解,Google Ngram English One Million(1-gram)可能适合此任务,但在下载此数据集的每个部分(0-9)并使用tail后他们检查它们是否是我想的,我发现这个数据集的任何部分都不包含F字母以外的单词。

据我所知,任何版本1文件都按字母顺序和按时间顺序排序,我担心最常见的一百万字可能不会超出F?

或者我是否错过了这个数据集的重点,它不是最常见的一百万字?

1 个答案:

答案 0 :(得分:0)

尝试shuf <file>进行随机排序,您会看到数据涵盖所有字母。您在文件末尾看到的内容不是f,而是连结