我想编写一个应用程序来搜索Google的Ngram数据,以返回过去在某些任意范围内以任意百分比比现在更受欢迎的单词和短语。
理想情况下,我希望能够找到这些单词和短语而不预先指定它们。任何人都可以使用下载的Ngrams数据副本帮助我想办法吗?
答案 0 :(得分:1)
下载一些n-gram后的第一步是将它们转储到SQLite3 database。例如,我获取了1-grams starting with the letter 't'
要将它们转储到SQLite中,请运行命令sqlite3 1grams.db
sqlite> create table t1grams (ngram text, year integer, match_count integer, volume_count integer);
sqlite> .separator "\t"
sqlite> .import googlebooks-eng-all-1gram-20120701-t t1grams
第二步是选择年份范围,称他们为YEAR_START
和YEAR_END
,以及您的百分比,称之为PERCENT_THRESHOLD
。
您的问题会缩小为一个查询,您可以在其中选择ngram
match_count
PERCENT_THRESHOLD
YEAR_END
YEAR_START
{{1}}%{{1}}。{ / p>