我需要使用Java和Hadoop构建一个系统来处理大数据处理(采用JSON格式)。我要创建的系统包括将数据插入文件存储(无论是HDFS还是数据库)并查询已处理的数据
我全面了解如何使用Hadoop MapReduce查询用户想要的数据。 但令我困惑的一件事是我应该如何插入数据。我应该使用HDFS并使用Java和Hadoop API插入文件吗?或者使用其他工具(例如HBase,关系数据库,NoSQL数据库)来插入数据以便Hadoop MapReduce将从我将使用的其他工具中获取输入数据更好?
请告知。
非常感谢
答案 0 :(得分:1)
我建议您使用HDFS / HIVE / JSONSerde方法。
解决方案大纲看起来像。
在上面的解决方案中,由于配置单元是读取模式的,因此每次查询表时都会解析您的json数据。
但是如果你想要解析数据一次并且你有批量数据(每周,每月),那么解析数据一次并创建一个临时表会很好。这可以用于频繁查询,以避免serde重复解析。
创建了一个示例