使用pyspark

时间:2018-05-23 18:58:30

标签: pyspark hbase pyspark-sql

我想使用pyspark将数据加载到Hbase表中, 有人可以帮助如何将json数据作为rowkey加载到Hbase,并将所有其他数据加载到一个列族中。 请在下面找到json。

{     “ticid”:“1496”,     “ticlocation”:“vizag”,     “custnum”:“222”,     “评论”: {         “评论”:[{             “commentno”:“1”,             “desc”:“旅程”,             “passengerseat”:{                 “intele”:“09”             },             “passengerloc”:{                 “intele”:“s15”             }         },{             “commentno”:“5”,             “desc”:“食物”,             “passengerseat”:{                 “intele”:“09”             },             “passengerloc”:{                 “intele”:“s15”             }         },{             “commentno”:“12”,             “desc”:“服务”,             “passengerseat”:{                 “intele”:“09”             },             “passengerloc”:{                 “intele”:“s15”             }         }]     },     “Rails”:{         “铁路”:[{             “Traino”:“AP1545”,             “startcity”:“vizag”,             “passengerseat”:“5”         },{             “特拉诺”:“AP1555”,             “startcity”:“HYD”,             “passengerseat”:“15A”         }]     } }

1 个答案:

答案 0 :(得分:0)

我假设你没有一行可以加载数千或数百万行?我建议将您的JSON数据转换为TSV(制表符分隔),这在Python中很容易并且使用HBase的 import-tsv 功能 也可以看看 Import TSV file into hbase table

Spark不是HBase批量加载的好模式。