在HDFS中附加序列文件

时间:2014-05-18 18:49:47

标签: hadoop hdfs

我有一个直播的推文,我需要存储在HDFS中。目前,我可以访问实时推文,并能够从这些推文中提取信息。我的要求是我需要将所有推文附加到HDFS中的单个序列文件中。但是我想过用两种方法来解决这个问题。我可以将一条推文存储到HDFS中的一个小文件中,并定期将它们捆绑到一个序列文件中。我想到的第二种方法是在运行时我会读取序列文件然后添加新的将内容放入序列文件中。

请让我知道我应该采取哪种方法。如果有更好的解决方案来处理这类用例,请建议我。

1 个答案:

答案 0 :(得分:0)

我建议使用Flume。 您可以在此示例中查看推文如何流式传输到HDFS: https://github.com/cloudera/cdh-twitter-example