BigQuery和公共数据集似乎都不具备所有的重要性

时间:2014-11-22 22:41:28

标签: google-bigquery n-gram

总结:我所要做的就是找出在n-gram查看器中可以看到的数据下载位置,因为原始数据和BigQuery似乎都没有查看器那样多的结果......

因此,在尝试下载所有bigrams而不手动打开每个文件(从可用的原始数据)时,我转向BigQuery试图将三字母数据转换为bigrams,但实现了,因为三元组是如何建成时,有很多没有包含的双子星球。

然后我采用了老式的方式,作为测试,从可用的原始数据 here 下载了 st 文件。这是一个巨大的文件,但由于某种原因,它没有包含明显的bigram 留在这里 即使 ngram查看器也有。另一个例子是保持束缚。查看器将显示两个短语的图形,但 st 文件(我希望包含该数据)不会。有谁知道为什么以及我可以做些什么来获得这样的数据?我认为如果它可以通过n-gram查看器获得,那么必须有一些方法可以下载它吗?

1 个答案:

答案 0 :(得分:1)

从您链接的文档中,可供下载的nGram数据集是及时的快照。最新版本发布于2012年7月。我相信nGram Viewer本身正在针对更新的数据运行。

我知道在BigQuery的情况下,trigram数据是nGram数据的旧快照,可以追溯到BigQuery首次启动的时间。请注意,我们的sample dataset documentation不包含三元数据集,部分原因是我们的快照有多久。