有人可以帮助解释一下大问题三元组和ngrams查看器百分位数值之间的差异(对于任何给定的三元组看起来有所不同,但这是一个由帖子https://groups.google.com/forum/#!topic/bigquery-discuss/OT_W0ayVSvg证实的具体例子)?
SELECT * FROM
(SELECT cell.value, cell.volume_fraction
FROM [bigquery-public-data:samples.trigrams]
WHERE ngram = "of these dinosaurs" AND cell.value = "1888"),
(SELECT cell.value, cell.volume_fraction
FROM [bigquery-public-data:samples.trigrams]
WHERE ngram = "of these dinosaurs" AND cell.value = "1890")
https://bigquery.cloud.google.com/savedquery/977440528149:1539bcaba54144d3bd9920c55ede72b9
1890 1.6196954972465177E-4 1888 1.6196954972465177E-4
1890 0.0000001270% 1888 0.0000001256%
答案 0 :(得分:0)
解释了这种差异,因为您使用的是两个不同的数据集。 BigQuery trigrams从包含某些书籍的样本数据集中读取数据,并且可能已经过修改以用于测试目的。 official description是:
包含已发布作品样本的英语三元组 在1520年至2008年之间。
Google图书现在根据Partner Program
和Library Project
不断更新,您可以看到here。
因此,您要将静态演示258GB数据集中的查询与Google图书平台进行比较。