Spark 将文件读入数据帧

时间:2021-01-12 08:19:38

标签: json apache-spark pyspark apache-spark-sql

当我尝试读取以下文件时,我得到了一个损坏的记录。

我正在尝试使用 SqlContext.read.Json(file location) 但得到 _corrupt_record:string。有人可以帮我吗?为我试图读入的文件在下面添加了数据集的头部。

感谢任何帮助。

3 个答案:

答案 0 :(得分:3)

要读取多行json,需要传递一个选项multiLine = True

df = spark.read.json('/path/to/json', multiLine=True)

并且您应该考虑使用 Spark Session 读取 json,而不是使用已弃用的 SQL 上下文。

答案 1 :(得分:0)

对于想在 Scala 中进行的人,您可以按照以下方式进行:

val df = spark.read.option("multiline",true)json("/path/to/json")

答案 2 :(得分:0)

val DB_DETAILS_FILE_PATH = "file:///C:/Users/sshashank/Desktop/db_details.json"
var dbDetailsDF = spark.read
                  .option("multiline", "true")
                  .json(DB_DETAILS_FILE_PATH)