当我尝试读取以下文件时,我得到了一个损坏的记录。
我正在尝试使用 SqlContext.read.Json(file location)
但得到 _corrupt_record:string
。有人可以帮我吗?为我试图读入的文件在下面添加了数据集的头部。
感谢任何帮助。
答案 0 :(得分:3)
要读取多行json,需要传递一个选项multiLine = True
:
df = spark.read.json('/path/to/json', multiLine=True)
并且您应该考虑使用 Spark Session 读取 json,而不是使用已弃用的 SQL 上下文。
答案 1 :(得分:0)
对于想在 Scala 中进行的人,您可以按照以下方式进行:
val df = spark.read.option("multiline",true)json("/path/to/json")
答案 2 :(得分:0)
val DB_DETAILS_FILE_PATH = "file:///C:/Users/sshashank/Desktop/db_details.json"
var dbDetailsDF = spark.read
.option("multiline", "true")
.json(DB_DETAILS_FILE_PATH)