我在PyTorch培训语言模型,我需要最常用的100万个英语单词作为字典。
根据我的理解,Google Ngram English One Million(1-gram)可能适合此任务,但在下载此数据集的每个部分(0-9)并使用tail
后他们检查它们是否是我想的,我发现这个数据集的任何部分都不包含F字母以外的单词。
据我所知,任何版本1文件都按字母顺序和按时间顺序排序,我担心最常见的一百万字可能不会超出F?
或者我是否错过了这个数据集的重点,它不是最常见的一百万字?
答案 0 :(得分:0)
尝试shuf <file>
进行随机排序,您会看到数据涵盖所有字母。您在文件末尾看到的内容不是f
,而是连结fl
。