应用错误收集

Google Ngram Viewer - 英语100万

时间：2018-02-16 16:20:42

标签： dictionary nlp words n-gram pytorch

我在PyTorch培训语言模型，我需要最常用的100万个英语单词作为字典。

根据我的理解，Google Ngram English One Million（1-gram）可能适合此任务，但在下载此数据集的每个部分（0-9）并使用tail后他们检查它们是否是我想的，我发现这个数据集的任何部分都不包含F字母以外的单词。

据我所知，任何版本1文件都按字母顺序和按时间顺序排序，我担心最常见的一百万字可能不会超出F？

或者我是否错过了这个数据集的重点，它不是最常见的一百万字？

1 个答案:

答案 0 :(得分：0)

尝试shuf <file>进行随机排序，您会看到数据涵盖所有字母。您在文件末尾看到的内容不是f，而是连结ﬂ。