我正在寻找一种使用Java将多行JSON加载到Spark中的方法。 Spark SQLContext
有加载JSON的方法,但它只支持“每行一条记录”。我有一个需要处理的多行JSON文件。
示例输入: JSON包含单词,定义和例句:
{
"one-armedbandit":
[
{
"function": "noun",
"definition": "slot machine",
"examples":
[
]
}
],
...
}
答案 0 :(得分:0)
Spark摄取方法确实接受json-line format。在处理之前,您可以考虑使用json处理器将数据转换为此格式。
答案 1 :(得分:0)
我所做的是使用JSON处理器将JSON读入POJO列表,然后在parallelize
上调用SparkContext
以获得JavaRDD
。