SequenceFile替代/扩展,允许就地更新

时间:2013-06-13 07:55:00

标签: hadoop hbase

我喜欢数据库的便利性,您可以在其中更新就地行。但是Hadoop依赖于能够并行使用的序列文件。

我喜欢HBase的想法,我只能重写一行;以及输入到map-reduce作业。但HBase不是新手必须搞砸的东西,对吧?什么是一个好的工具/方法?

1 个答案:

答案 0 :(得分:1)

我认为学习和使用HBase并不困难。

来到你原来的问题。我们使用HBase的原因与使用任何其他数据库的原因相同,即random, real-time read/write access,HDFS缺乏任何其他FS。对于任何文件系统都是如此,而不仅仅是HDFS。你可以拿ext4&以MySQL范例为例。

当你说在HBase中重写时,实际上并没有更新。您可以在同一位置放置new version个单元格或delete个单元格和put个新数据。

你不能说Hadoop依赖于序列文件来为你提供并行性。并行性是Hadoop凭借其本质提供的东西,我是distributed platform。您几乎可以使用Hadoop处理几乎任何类型的文件,并且具有几乎所有的并行性。序列文件的唯一优势是它们更适合MapReduce processing,因为它们已经在key/vale pairs中。

你必须带着一点盐,但坦率地说Hadoop不理解更新。如果你能详细说明你的用例,也许我可以提出更好的建议。