我感兴趣的是通过BigQuery的功能查找三元数据来获得与特定单词最常联系的单词关联。例如,当使用Google的Ngram viewer时,我可以输入great *
,这将为我提供“伟大”之后最常关联的单词,例如“很棒”,然后“很棒”和“很多“。我的目标是为大量单词列表执行此操作,以便我可以word1 *
一直查询word10000 *
在讨论了这个SO answer后,我被引导到了BigQuery公开的三元数据。在这一点上我似乎无法弄清楚的是如何使用这个服务输入一个单词数组,作为文件输入或粘贴它们的方式。任何帮助非常感谢 - 谢谢。
答案 0 :(得分:2)
以下是您将如何找到10个最常用的词语" great":
SELECT second, SUM(cell.page_count) total
FROM [publicdata:samples.trigrams]
WHERE first = "great"
group by 1
order by 2 desc
limit 10
这导致
second total
------------------
deal 3048832
and 1689911
, 1576341
a 1019511
number 984993
many 875974
importance 805215
part 739409
. 700694
as 628978
如果您想限制特定年份 - 例如1820年到1840年之间,那么您也可以限制cell.value(发布年份)
SELECT second, SUM(cell.page_count) total FROM [publicdata:samples.trigrams]
WHERE first = "great" and cell.value between '1820' and '1840'
group by 1
order by 2 desc
limit 10