如何使用PySpark 1.6读取实木复合地板文件?

时间:2019-06-10 18:44:54

标签: apache-spark pyspark hdfs

我可以使用以下方式读取常规文件:

textFile = sc.textFile("README.md")

但是如何读取Parquet文件?

2 个答案:

答案 0 :(得分:0)

parquetFile = sqlContext.read.parquet("people.parquet")

or in your case

parquetFile = sc.read.parquet("people.parquet")

我将在此处阅读文档以获取更多信息:https://spark.apache.org/docs/1.6.0/sql-programming-guide.html#hive-metastore-parquet-table-conversion

答案 1 :(得分:-1)

data = sqlContext.read.parquet("/tmp/testParquet")
display(data)