如何使用Java在spark中加载多行JSON

时间:2016-02-02 23:45:06

标签: json apache-spark apache-spark-sql multiline

我正在寻找一种使用Java将多行JSON加载到Spark中的方法。 Spark SQLContext有加载JSON的方法,但它只支持“每行一条记录”。我有一个需要处理的多行JSON文件。

示例输入: JSON包含单词,定义和例句:

{
"one-armedbandit": 
    [
        {
            "function": "noun",
            "definition": "slot machine",
            "examples": 
            [
            ]
        }
    ],
...
}

2 个答案:

答案 0 :(得分:0)

Spark摄取方法确实接受json-line format。在处理之前,您可以考虑使用json处理器将数据转换为此格式。

答案 1 :(得分:0)

我所做的是使用JSON处理器将JSON读入POJO列表,然后在parallelize上调用SparkContext以获得JavaRDD