我正在使用 google_ngram_downloader 来阅读Google数据集。
代码:
from google_ngram_downloader import readline_google_store
fname, url, records = next(readline_google_store(ngram_len=1))
for x in range(0,5):
print next(records)
这里我从0,1,... a,b,c .. z 开始逐个读取数据集。 下一个(readline_google_store(ngram_len = 1))逐个给出ngrams。我想直接读取'a','b'的数据集,不是一个一个。
必填:只读数据集,该数据集以字母'a'开头,具有 1-gram 数据集。
答案 0 :(得分:1)
一种方法是明确添加indices
。使用此行可以获得以 a 开头的长度为1的ngram。
fname, url, records = next(readline_google_store(ngram_len=1,indices='a'))