我从info/download页面了解到,Google ngrams数据的格式为
ngram TAB year TAB match_count TAB volume_count NEWLINE
这是来自文件的小摘录,其中1克以a:
开头announced.37_VERB 2008 1 1
annually.34 1913 2 2
我知道_VERB部分是POS标记。但是,我无法找到关于后期数字意味着什么的可靠文件,即 .37 或 .34 等, 如果有人可以为此提供一些线索,那么对于那些开始使用谷歌ngrams作为数据源开始使用NLP的人来说,这将是非常有帮助的。