应用错误收集

hadoop - 从一个非常大的序列文件中获取数据的最佳方法是什么？

时间：2012-07-05 09:20:25

标签： hadoop hive bigdata

我在hdfs中有一个非常大的hadoop序列文件。从中获取数据的最佳方法是什么？即选择记录等。

可以通过蜂巢来完成吗？如何在序列文件中在hive中创建表？

感谢

1 个答案:

答案 0 :(得分：0)

如果您需要“快速”访问数据，您应该考虑将数据加载到某种数据存储区（DB或noSQL存储库，如HBase，Accumulo）。

另一个选项（如果你可以重写你的数据）是研究使用MapFile - 这会为你的序列文件中的键创建一个索引，并提供更快的访问权限。数据与完整文件扫描相比。

否则，如果你想使用Hive，那么在hive邮件列表上有一个关于这个主题的帖子：

http://www.mail-archive.com/hive-user@hadoop.apache.org/msg00173.html