Question

我正在使用PutHBaseJSon处理器，它将从hdfs位置获取数据并将其放入hbase。hdfs位置中的数据类似于以下格式，这是在一个文件中。

{"EMPID": "17", "EMPNAME": "b17", "DEPTID": "DNA"}            
{"EMPID": "18", "EMPNAME": "b18", "DEPTID": "DNA"}
{"EMPID": "19", "EMPNAME": "b19", "DEPTID": "DNA"}

当我执行PutHBaseJSon处理器时，它只获取第一行并将其放入我创建的hbase表中。我们无法使用此处理器获取该文件中存在的所有行吗？或者如何从单个文件中获取所有记录到hbase？

Answer 1

PutHBaseJSON将单个JSON文档作为输入。从HDFS获取后，您应该能够使用行数为1的SplitText处理器将每个JSON文档放入单个流文件中。

如果你在一个HDFS文件中有数百万个JSON记录，那么你应该执行两阶段分割，第一个SplitText应该用一个行数10,000分割，然后第二个SplitText应该将它们分成1行

Answer 2

您可以使用 SplitJson 处理器将它们按顺序拆分为单独的记录，它们将被发送到 puthbasejson

Apache-Nifi中的PutHBaseJSon处理器

2 个答案: