如何从databricks中读取json.out文件

时间:2019-05-02 09:40:26

标签: amazon-web-services databricks amazon-sagemaker

我一直在使用数据块来读取Sagemaker中Object2Vec的输出。此输出以.json.out文件格式另存为jsonlines。

df_emb = spark.read.option("multiLine", True).option("mode", "PERMISSIVE").json(bucket+key)

当我将此文件读取为json时,它被读取为损坏的记录。下面是屏幕截图。 enter image description here

如果您知道解决方法,我可以提供实际文件。

1 个答案:

答案 0 :(得分:0)

要解析jsonlines,您应该使用单行模式,而不是多行模式。

df_emb = spark.read.option("mode", "PERMISSIVE").json(bucket+key)

请参见https://docs.databricks.com/spark/latest/data-sources/read-json.html#single-line-mode