Question

根据我的理解，Google's Ngram dataset中的每个文件都包含一个ngrams列表，按字母顺序排序，然后按年按数字排序。但是，假设数据是UTF8（file说的是正确的），и是1080，其中I是73，所以我不明白为什么использовал_NUM来之前I'Academie_PRON。文件中的相关行（从第131356行开始）：

использовал_NUM 2005    4       1
I'Academie_PRON 1813    1       1

这是我的ngram-sort-test.js突出显示的比较功能。要运行，请下载this file from Google并将其解压缩到与ngram-sort-test.js相同的目录中。

Answer 1

这不是一个真正的答案，但我的解决方法是使用LC_ALL=C sort <googlebooks-eng-all-1gram-20120701-i >googlebooks-eng-all-1gram-20120701-i.sorted手动对文件进行排序。

谷歌Ngram排序？

1 个答案: