我一直在使用数据块来读取Sagemaker中Object2Vec的输出。此输出以.json.out
文件格式另存为jsonlines。
df_emb = spark.read.option("multiLine", True).option("mode", "PERMISSIVE").json(bucket+key)
当我将此文件读取为json时,它被读取为损坏的记录。下面是屏幕截图。
如果您知道解决方法,我可以提供实际文件。
答案 0 :(得分:0)
要解析jsonlines,您应该使用单行模式,而不是多行模式。
df_emb = spark.read.option("mode", "PERMISSIVE").json(bucket+key)
请参见https://docs.databricks.com/spark/latest/data-sources/read-json.html#single-line-mode