首先,我对大数据和Hadoop世界相对较新,我刚开始尝试使用Hortonworks Sandbox(目前为止的Pig和Hive)。
我想知道在哪些情况下我可以使用上面提到的Hadoop,Hive,Pig,HBase和Cassandra的工具?
在我的沙盒环境中,文件只有9MB Hive和Pig的响应时间为几秒到几分钟。这显然在某些情况下不可用,例如Web应用程序(除非它是其他东西,例如我的虚拟机设置)。
我对正确用法的猜测是:
另外,何时使用HBase而不是何时使用Cassandra?
谢谢!
答案 0 :(得分:9)
你的猜测有点准确。
通过Hadoop,我猜你指的是MapReduce? Hadoop本身就是一个由许多组件组成的生态系统(包括MapReduce,HDFS,Pig和Hive)。
当您需要在Map()和Reduce()方法级别编写处理数据的逻辑时,MapReduce很好。在我的工作中,当我处理非结构化数据时,我发现MapReduce非常有用。需要清理。
Hive,Pig:它们适用于批处理过程,定期运行(可能是数小时或数天)
HBase& Cassandra:支持低延迟通话。因此,它们可用于实时应用程序,其中响应时间是关键。请查看this discussion以更好地了解HBase与Cassandra。