我正在使用PutHBaseJSon处理器,它将从hdfs位置获取数据并将其放入hbase。hdfs位置中的数据类似于以下格式,这是在一个文件中。
{"EMPID": "17", "EMPNAME": "b17", "DEPTID": "DNA"}
{"EMPID": "18", "EMPNAME": "b18", "DEPTID": "DNA"}
{"EMPID": "19", "EMPNAME": "b19", "DEPTID": "DNA"}
当我执行PutHBaseJSon处理器时,它只获取第一行并将其放入我创建的hbase表中。我们无法使用此处理器获取该文件中存在的所有行吗?或者如何从单个文件中获取所有记录到hbase?
答案 0 :(得分:1)
PutHBaseJSON将单个JSON文档作为输入。从HDFS获取后,您应该能够使用行数为1的SplitText处理器将每个JSON文档放入单个流文件中。
如果你在一个HDFS文件中有数百万个JSON记录,那么你应该执行两阶段分割,第一个SplitText应该用一个行数10,000分割,然后第二个SplitText应该将它们分成1行
答案 1 :(得分:-1)
您可以使用 SplitJson 处理器将它们按顺序拆分为单独的记录,它们将被发送到 puthbasejson