Java Hadoop以JSON格式插入和查询大数据

时间:2016-09-23 10:37:41

标签: java hadoop

我需要使用Java和Hadoop构建一个系统来处理大数据处理(采用JSON格式)。我要创建的系统包括将数据插入文件存储(无论是HDFS还是数据库)并查询已处理的数据

我全面了解如何使用Hadoop MapReduce查询用户想要的数据。 但令我困惑的一件事是我应该如何插入数据。我应该使用HDFS并使用Java和Hadoop API插入文件吗?或者使用其他工具(例如HBase,关系数据库,NoSQL数据库)来插入数据以便Hadoop MapReduce将从我将使用的其他工具中获取输入数据更好?

请告知。

非常感谢

1 个答案:

答案 0 :(得分:1)

我建议您使用HDFS / HIVE / JSONSerde方法。

解决方案大纲看起来像。

  1. 将您的JSON数据存储在HDFS上。
  2. 使用hive创建外部表,并使用jsonSerde将json数据映射到表的列。
  3. 使用hiveQL查询数据。
  4. 在上面的解决方案中,由于配置单元是读取模式的,因此每次查询表时都会解析您的json数据。

    但是如果你想要解析数据一次并且你有批量数据(每周,每月),那么解析数据一次并创建一个临时表会很好。这可以用于频繁查询,以避免serde重复解析。

    我在Hadoopgig

    创建了一个示例