我想使用pyspark将数据加载到Hbase表中, 有人可以帮助如何将json数据作为rowkey加载到Hbase,并将所有其他数据加载到一个列族中。 请在下面找到json。
{ “ticid”:“1496”, “ticlocation”:“vizag”, “custnum”:“222”, “评论”: { “评论”:[{ “commentno”:“1”, “desc”:“旅程”, “passengerseat”:{ “intele”:“09” }, “passengerloc”:{ “intele”:“s15” } },{ “commentno”:“5”, “desc”:“食物”, “passengerseat”:{ “intele”:“09” }, “passengerloc”:{ “intele”:“s15” } },{ “commentno”:“12”, “desc”:“服务”, “passengerseat”:{ “intele”:“09” }, “passengerloc”:{ “intele”:“s15” } }] }, “Rails”:{ “铁路”:[{ “Traino”:“AP1545”, “startcity”:“vizag”, “passengerseat”:“5” },{ “特拉诺”:“AP1555”, “startcity”:“HYD”, “passengerseat”:“15A” }] } }
答案 0 :(得分:0)
我假设你没有一行可以加载数千或数百万行?我建议将您的JSON数据转换为TSV(制表符分隔),这在Python中很容易并且使用HBase的 import-tsv 功能 也可以看看 Import TSV file into hbase table
Spark不是HBase批量加载的好模式。