我在EMR集群上运行SparkR(发布emr-5.3.0)并尝试从压缩的S3文件中导入JSON数据。
read.df在我正在阅读有换行符作为文件分隔符的JSON时工作正常
read.df("s3://.../*.json", "json")
但最初使用
记录数据时它不起作用"textinputformat.record.delimiter": '\0'
(因为我只从我目录中的每个文件中获取第一条记录)。
如何让read.df将空字符识别为记录分隔符并解析整个文件,而不仅仅是第一个JSON记录,然后在嵌入式nul中静默失败?