使用适度资源在Google图书n-gram数据集上进行处理的最可行选项是什么?

时间:2013-03-06 14:09:10

标签: hadoop hive distributed-computing bigdata n-gram

我需要计算大约10,000个目标词和几百个上下文词的单词共现统计数据,对于每个目标词,来自谷歌书籍的n-gram语料库

以下是完整数据集的链接:

Google Ngram Viewer

明显的数据库大约是2.2TB,包含数百亿行。为了计算单词共现统计,我需要处理每对可能的目标和上下文单词的整个数据。我目前正在考虑将Hadoop与Hive一起用于批量处理数据。考虑到这是一个学期项目,有一个学期的时间限制和有限的计算资源可用性,还有哪些可行的选择。

请注意,不需要对数据进行实时查询