SparkR read.df忽略分隔符参数

时间:2017-04-06 22:17:25

标签: hadoop sparkr

我在EMR集群上运行SparkR(发布emr-5.3.0)并尝试从压缩的S3文件中导入JSON数据。

read.df在我正在阅读有换行符作为文件分隔符的JSON时工作正常

read.df("s3://.../*.json", "json")

但最初使用

记录数据时它不起作用
"textinputformat.record.delimiter": '\0'

(因为我只从我目录中的每个文件中获取第一条记录)。

如何让read.df将空字符识别为记录分隔符并解析整个文件,而不仅仅是第一个JSON记录,然后在嵌入式nul中静默失败?

0 个答案:

没有答案