将json数据从文件加载到Postgres

时间:2015-10-14 15:29:22

标签: json postgresql

我需要将多个JSON文件中的数据加载到Postgres表中,每个JSON文件中都有多个记录。我使用以下代码,但它不起作用(我在Windows上使用pgAdmin III)

COPY tbl_staging_eventlog1 ("EId", "Category", "Mac", "Path", "ID")
from 'C:\\SAMPLE.JSON' 
delimiter ','
;

SAMPLE.JSON文件的内容是这样的(给出了许多这样的记录):

[{"EId":"104111","Category":"(0)","Mac":"ABV","Path":"C:\\Program Files (x86)\\Google","ID":"System.Byte[]"},{"EId":"104110","Category":"(0)","Mac":"BVC","Path":"C:\\Program Files (x86)\\Google","ID":"System.Byte[]"}]

2 个答案:

答案 0 :(得分:22)

试试这个:

-- let's create a temp table to bulk data into
create temporary table temp_json (values text) on commit drop;
copy temp_json from 'C:\SAMPLE.JSON';

-- uncomment the line above to insert records into your table
-- insert into tbl_staging_eventlog1 ("EId", "Category", "Mac", "Path", "ID") 

select values->>'EId' as EId,
       values->>'Category' as Category,
       values->>'Mac' as Mac,
       values->>'Path' as Path,
       values->>'ID' as ID      
from   (
           select json_array_elements(replace(values,'\','\\')::json) as values 
           from   temp_json
       ) a;

答案 1 :(得分:0)

Andrew Dunstan's PostgreSQL and Technical blog

中所述

在文本模式下,由于JSON中存在反斜杠,因此COPY将被简单击败。因此,例如,任何包含嵌入式双引号或嵌入式换行符的字段,或根据JSON规范需要转义的其他任何字段,都会导致失败。在文本模式下,您几乎无法控制其工作方式-例如,您不能指定其他ESCAPE字符。所以文本模式根本行不通。

所以我们必须转到CSV格式模式。

copy the_table(jsonfield) 
from '/path/to/jsondata' 
csv quote e'\x01' delimiter e'\x02';

在官方文档sql-copy中,一些参数在此处列出:

COPY table_name [ ( column_name [, ...] ) ]
    FROM { 'filename' | PROGRAM 'command' | STDIN }
    [ [ WITH ] ( option [, ...] ) ]
    [ WHERE condition ]

where option can be one of:

    FORMAT format_name
    FREEZE [ boolean ]
    DELIMITER 'delimiter_character'
    NULL 'null_string'
    HEADER [ boolean ]
    QUOTE 'quote_character'
    ESCAPE 'escape_character'
    FORCE_QUOTE { ( column_name [, ...] ) | * }
    FORCE_NOT_NULL ( column_name [, ...] )
    FORCE_NULL ( column_name [, ...] )
    ENCODING 'encoding_name'
  • FORMAT
    • 选择要读取或写入的数据格式:文本,csv(逗号分隔值)或二进制。默认值为文本。
  • QUOTE
    • 指定引用数据值时要使用的引用字符。默认值为双引号。这必须是一个单字节字符。仅当使用CSV格式时,才允许使用此选项。
  • DELIMITER
    • 指定在文件的每一行(行)中分隔列的字符。默认为文本格式的制表符,CSV格式的逗号。这必须是一个单字节字符。使用二进制格式时,不允许使用此选项。
  • NULL
    • 指定表示空值的字符串。默认值为文本格式\ N(反斜杠-N),以及CSV格式的无引号的空字符串。对于不想将空值与空字符串区分开的情况,甚至可能以文本格式使用空字符串。使用二进制格式时,不允许使用此选项。
  • 标题
    • 指定文件包含标题行,其中包含文件中每一列的名称。输出时,第一行包含表中的列名,输入时,第一行被忽略。仅当使用CSV格式时,才允许使用此选项。