Question

spark有两种类型的压缩文件格式。一个是实木复合地板，它很容易阅读：

from pyspark.sql import HiveContext
hiveCtx = HiveContext(sc)
hiveCtx.parquetFile(parquetFile)

但是对于ocr文件。我找不到一个很好的例子来告诉我如何使用pyspark来阅读。

Answer 1

嗯，有两种方法：

Spark 2.x：

orc_df = spark.read.orc('python/test_support/sql/orc_partitioned')

Spark 1.6：

df = hiveContext.read.orc('python/test_support/sql/orc_partitioned')