根据我的理解,Google's Ngram dataset中的每个文件都包含一个ngrams列表,按字母顺序排序,然后按年按数字排序。但是,假设数据是UTF8(file
说的是正确的),и
是1080,其中I
是73,所以我不明白为什么использовал_NUM
来之前I'Academie_PRON
。文件中的相关行(从第131356行开始):
использовал_NUM 2005 4 1
I'Academie_PRON 1813 1 1
这是我的ngram-sort-test.js突出显示的比较功能。要运行,请下载this file from Google并将其解压缩到与ngram-sort-test.js相同的目录中。
答案 0 :(得分:0)
这不是一个真正的答案,但我的解决方法是使用LC_ALL=C sort <googlebooks-eng-all-1gram-20120701-i >googlebooks-eng-all-1gram-20120701-i.sorted
手动对文件进行排序。