谷歌Ngram排序?

时间:2013-07-17 23:43:29

标签: node.js sorting n-gram

根据我的理解,Google's Ngram dataset中的每个文件都包含一个ngrams列表,按字母顺序排序,然后按年按数字排序。但是,假设数据是UTF8(file说的是正确的),и是1080,其中I是73,所以我不明白为什么использовал_NUM来之前I'Academie_PRON。文件中的相关行(从第131356行开始):

использовал_NUM 2005    4       1
I'Academie_PRON 1813    1       1

这是我的ngram-sort-test.js突出显示的比较功能。要运行,请下载this file from Google并将其解压缩到与ngram-sort-test.js相同的目录中。

1 个答案:

答案 0 :(得分:0)

这不是一个真正的答案,但我的解决方法是使用LC_ALL=C sort <googlebooks-eng-all-1gram-20120701-i >googlebooks-eng-all-1gram-20120701-i.sorted手动对文件进行排序。