使用大量数据作为输入构建BigQuery

时间:2015-11-22 23:21:52

标签: google-bigquery

我感兴趣的是通过BigQuery的功能查找三元数据来获得与特定单词最常联系的单词关联。例如,当使用Google的Ngram viewer时,我可以输入great *,这将为我提供“伟大”之后最常关联的单词,例如“很棒”,然后“很棒”和“很多“。我的目标是为大量单词列表执行此操作,以便我可以word1 *一直查询word10000 *

在讨论了这个SO answer后,我被引导到了BigQuery公开的三元数据。在这一点上我似乎无法弄清楚的是如何使用这个服务输入一个单词数组,作为文件输入或粘贴它们的方式。任何帮助非常感谢 - 谢谢。

1 个答案:

答案 0 :(得分:2)

以下是您将如何找到10个最常用的词语" great":

SELECT second, SUM(cell.page_count) total 
FROM [publicdata:samples.trigrams] 
WHERE first = "great"
group by 1
order by 2 desc
limit 10

这导致

second     total     
------------------
deal       3048832   
and        1689911   
,          1576341   
a          1019511   
number     984993    
many       875974    
importance 805215    
part       739409    
.          700694    
as         628978

如果您想限制特定年份 - 例如1820年到1840年之间,那么您也可以限制cell.value(发布年份)

SELECT second, SUM(cell.page_count) total FROM [publicdata:samples.trigrams] 
WHERE first = "great" and cell.value between '1820' and '1840'
group by 1
order by 2 desc
limit 10