标签: hadoop hive distributed-computing bigdata n-gram
我需要计算大约10,000个目标词和几百个上下文词的单词共现统计数据,对于每个目标词,来自谷歌书籍的n-gram语料库
以下是完整数据集的链接:
Google Ngram Viewer
明显的数据库大约是2.2TB,包含数百亿行。为了计算单词共现统计,我需要处理每对可能的目标和上下文单词的整个数据。我目前正在考虑将Hadoop与Hive一起用于批量处理数据。考虑到这是一个学期项目,有一个学期的时间限制和有限的计算资源可用性,还有哪些可行的选择。
请注意,不需要对数据进行实时查询
答案 0 :(得分:0)
Hive有一个用于处理ngrams的内置UDF https://cwiki.apache.org/Hive/statisticsanddatamining.html#StatisticsAndDataMining-ngrams%2528%2529andcontextngrams%2528%2529%253ANgramfrequencyestimation