标签: apache-spark pyspark pyspark-sql
spark有两种类型的压缩文件格式。一个是实木复合地板,它很容易阅读:
from pyspark.sql import HiveContext hiveCtx = HiveContext(sc) hiveCtx.parquetFile(parquetFile)
但是对于ocr文件。我找不到一个很好的例子来告诉我如何使用pyspark来阅读。
答案 0 :(得分:1)
嗯,有两种方法:
Spark 2.x:
orc_df = spark.read.orc('python/test_support/sql/orc_partitioned')
Spark 1.6:
df = hiveContext.read.orc('python/test_support/sql/orc_partitioned')