java - Java Hadoop以JSON格式插入和查询大数据

Java Hadoop以JSON格式插入和查询大数据

时间：2016-09-23 10:37:41

标签： java hadoop

我需要使用Java和Hadoop构建一个系统来处理大数据处理（采用JSON格式）。我要创建的系统包括将数据插入文件存储（无论是HDFS还是数据库）并查询已处理的数据

我全面了解如何使用Hadoop MapReduce查询用户想要的数据。但令我困惑的一件事是我应该如何插入数据。我应该使用HDFS并使用Java和Hadoop API插入文件吗？或者使用其他工具（例如HBase，关系数据库，NoSQL数据库）来插入数据以便Hadoop MapReduce将从我将使用的其他工具中获取输入数据更好？

请告知。

非常感谢

1 个答案:

答案 0 :(得分：1)

我建议您使用HDFS / HIVE / JSONSerde方法。

解决方案大纲看起来像。

将您的JSON数据存储在HDFS上。
使用hive创建外部表，并使用jsonSerde将json数据映射到表的列。
使用hiveQL查询数据。

在上面的解决方案中，由于配置单元是读取模式的，因此每次查询表时都会解析您的json数据。

但是如果你想要解析数据一次并且你有批量数据（每周，每月），那么解析数据一次并创建一个临时表会很好。这可以用于频繁查询，以避免serde重复解析。

我在Hadoopgig