我在hdfs中有一个非常大的hadoop序列文件。 从中获取数据的最佳方法是什么?即选择记录等。
可以通过蜂巢来完成吗? 如何在序列文件中在hive中创建表?
感谢
答案 0 :(得分:0)
如果您需要“快速”访问数据,您应该考虑将数据加载到某种数据存储区(DB或noSQL存储库,如HBase,Accumulo)。
另一个选项(如果你可以重写你的数据)是研究使用MapFile - 这会为你的序列文件中的键创建一个索引,并提供更快的访问权限。数据与完整文件扫描相比。
否则,如果你想使用Hive,那么在hive邮件列表上有一个关于这个主题的帖子: