hadoop - 你怎么能用hadoop做一些不可能或很难用Hive做的事情？

你怎么能用hadoop做一些不可能或很难用Hive做的事情？

时间：2014-01-17 17:35:22

标签： hadoop hive

我对Hadoop和Hive很陌生，想要一个可以用Hadoop轻松完成的事情的例子，但是hive不适合。

2 个答案:

答案 0 :(得分：1)

所有不是“关系工作负载”的东西（例如你也可以用SQL数据库做的东西）并不适合Hive。可能总是有一种方法可以使用Hive（主要是因为UDF可用），但它不会“轻松”。

您在区分“Hadoop”和“Hive”。但是，“Hadoop”是一个相当通用的术语：它可能意味着“HDFS”（分布式文件系统），“YARN”（资源管理器）或“Hadoop”作为Google建议的“Map Reduce”算法的实现。我假设您在比较Hadoop和Hive时会引用“Map Reduce”。

我想说计算page-rank with MapReduce对Hive来说可能很烦人。另一个例子是计算TF-IDF with MapReduce。

答案 1 :(得分：1)

可以使用具有Hivemall扩展名的Apache Hive计算TF-IDF。 https://github.com/myui/hivemall/wiki/TFIDF-calculation

要计算TF-IDF，只需要2个视图和1个查询。简单！