如何从postgreSQL JSON列值创建单独的表

时间:2018-11-15 03:58:12

标签: python json postgresql pyspark

以下是表格格式:

CREATE TABLE records
(
  id text,
  record json
) 

对于该行的每个record列,JSON值将为:(这只是整个结构的快照)

{
    "Trial": {
        "primary_id": "xxxxx",
        "key1": "aaaaaaaa (BAL-8557) aaaaaaaaaaaaaaaaaa",
        "key2": "aaaaaaaaaaaaa , aaaaaaaaaaaaaaaaaaa",
        "key3": "Yes",
        "key4": "No",
        "key5": {
            "key5k": [{
                    "@type": "ABC",
                    "$": "ABC121 "
                },
                {
                    "@type": "ABC",
                    "$": "ABC12133 "
                }
            ]
        },
        "Indications": {
            "Indication": [{
                    "indication_id": "1308",
                    "$": "aaaaaa"
                },
                {
                    "indicationid": "1309",
                    "$": "bbbbbb"
                }
            ]
        }
    }
}

当前表中大约有30万行

我想开发一个实用程序,该实用程序将读取所有行以查找具有嵌套JSON的键。

基于嵌套的JSON结构,我想创建一个单独的表

例如在JSON表上方,指示表将为

----------------------------------------
primary_id  |   indication_id |   value
----------------------------------------
    xxxxx       |   1308      | aaaaaa
----------------------------------------
    xxxxx       |   1309      | bbbbbb

如何开发此实用程序?

这应该由PostgreSQL函数还是使用Python + Spark处理?

如果有人可以共享此解决方案的任何链接或类似的东西会有所帮助,谢谢

0 个答案:

没有答案