应用错误收集

时间：2013-03-06 14:09:10

标签： hadoop hive distributed-computing bigdata n-gram

我需要计算大约10,000个目标词和几百个上下文词的单词共现统计数据，对于每个目标词，来自谷歌书籍的n-gram语料库

以下是完整数据集的链接：

明显的数据库大约是2.2TB，包含数百亿行。为了计算单词共现统计，我需要处理每对可能的目标和上下文单词的整个数据。我目前正在考虑将Hadoop与Hive一起用于批量处理数据。考虑到这是一个学期项目，有一个学期的时间限制和有限的计算资源可用性，还有哪些可行的选择。

请注意，不需要对数据进行实时查询

答案 0 :(得分：0)