我对Hadoop和Hive很陌生,想要一个可以用Hadoop轻松完成的事情的例子,但是hive不适合。
答案 0 :(得分:1)
所有不是“关系工作负载”的东西(例如你也可以用SQL数据库做的东西)并不适合Hive。可能总是有一种方法可以使用Hive(主要是因为UDF可用),但它不会“轻松”。
您在区分“Hadoop”和“Hive”。但是,“Hadoop”是一个相当通用的术语:它可能意味着“HDFS”(分布式文件系统),“YARN”(资源管理器)或“Hadoop”作为Google建议的“Map Reduce”算法的实现。我假设您在比较Hadoop和Hive时会引用“Map Reduce”。
我想说计算page-rank with MapReduce对Hive来说可能很烦人。另一个例子是计算TF-IDF with MapReduce。
答案 1 :(得分:1)
可以使用具有Hivemall扩展名的Apache Hive计算TF-IDF。 https://github.com/myui/hivemall/wiki/TFIDF-calculation
要计算TF-IDF,只需要2个视图和1个查询。简单!