我有一个包含Parquet文件的文件夹。像这样:
scala> val df = sc.parallelize(List(1,2,3,4)).toDF()
df: org.apache.spark.sql.DataFrame = [value: int]
scala> df.write.parquet("/tmp/test/df/1.parquet")
scala> val df = sc.parallelize(List(5,6,7,8)).toDF()
df: org.apache.spark.sql.DataFrame = [value: int]
scala> df.write.parquet("/tmp/test/df/2.parquet")
当我去df
文件夹中读取所有镶木地板文件时保存数据框后,它给了我错误。
scala> val read = spark.read.parquet("/tmp/test/df")
org.apache.spark.sql.AnalysisException: Unable to infer schema for Parquet. It must be specified manually.;
at org.apache.spark.sql.execution.datasources.DataSource$$anonfun$8.apply(DataSource.scala:189)
at org.apache.spark.sql.execution.datasources.DataSource$$anonfun$8.apply(DataSource.scala:189)
at scala.Option.getOrElse(Option.scala:121)
at org.apache.spark.sql.execution.datasources.DataSource.org$apache$spark$sql$execution$datasources$DataSource$$getOrInferFileFormatSchema(DataSource.scala:188)
at org.apache.spark.sql.execution.datasources.DataSource.resolveRelation(DataSource.scala:387)
at org.apache.spark.sql.DataFrameReader.load(DataFrameReader.scala:152)
at org.apache.spark.sql.DataFrameReader.parquet(DataFrameReader.scala:441)
at org.apache.spark.sql.DataFrameReader.parquet(DataFrameReader.scala:425)
... 48 elided
我知道我可以通过提供完整路径来阅读Parquet文件,但如果有办法读取文件夹中的所有镶木地板文件会更好。
答案 0 :(得分:11)
Spark不像你认为的那样写/读拼花。
它使用Hadoop库来编写/读取分区镶木地板文件。
因此,您的第一个镶木地板文件位于路径/tmp/test/df/1.parquet/
下,其中1.parquet
是一个目录。这意味着当从镶木地板中读取时,如果它是一个文件,则需要提供镶木地板目录或路径的路径。
val df = spark.read.parquet("/tmp/test/df/1.parquet/")
我建议您阅读官方文档以获取更多详细信息。 [比照SQL Programming Guide - Parquet Files]
修改强>
你一定在寻找这样的东西:
scala> sqlContext.range(1,100).write.save("/tmp/test/df/1.parquet")
scala> sqlContext.range(100,500).write.save("/tmp/test/df/2.parquet")
scala> val df = sqlContext.read.load("/tmp/test/df/*")
// df: org.apache.spark.sql.DataFrame = [id: bigint]
scala> df.show(3)
// +---+
// | id|
// +---+
// |400|
// |401|
// |402|
// +---+
// only showing top 3 rows
scala> df.count
// res3: Long = 499
您还可以在文件路径URI中使用通配符。
您可以提供以下多个文件路径:
scala> val df2 = sqlContext.read.load("/tmp/test/df/1.parquet","/tmp/test/df/2.parquet")
// df2: org.apache.spark.sql.DataFrame = [id: bigint]
scala> df2.count
// res5: Long = 499
答案 1 :(得分:1)
您在/tmp/test/df/1.parquet
和/tmp/test/df/2.parquet
上编写的文件不是输出目录的输出文件。
所以,你可以阅读实木复合地板
val data = spark.read.parquet("/tmp/test/df/1.parquet/")
答案 2 :(得分:1)
您可以将数据写入文件夹而不是单独的Spark“文件”(实际上是文件夹)1.parquet
,2.parquet
等。
如果未设置文件名而仅设置路径,Spark会将文件作为真实文件(而非文件夹)放入文件夹中,并自动命名该文件。
df1.write.partitionBy("countryCode").format("parquet").mode("overwrite").save("/tmp/data1/")
df2.write.partitionBy("countryCode").format("parquet").mode("append").save("/tmp/data1/")
df3.write.partitionBy("countryCode").format("parquet").mode("append").save("/tmp/data1/")
我们还可以从数据文件夹中的所有文件中读取数据:
val df = spark.read.format("parquet").load("/tmp/data1/")