从S3读取带有分区的RC文件pyspark 2.0.0

时间:2017-01-05 11:39:26

标签: apache-spark amazon-s3 pyspark spark-dataframe rc

有没有办法可以将存储在S3中的分区的RC文件加载到pyspark Dataframe 2.0.0中

1 个答案:

答案 0 :(得分:0)

我找到了一种方法来加载RCFiles(从s3)到pyspark。

from pyspark.sql import HiveContext
spark = SparkSession.builder.master("yarn").appName("elevateDailyJob").enableHiveSupport().getOrCreate()
sc = spark.sparkContext
sqlContext = HiveContext(sc)
sqlContext.sql("CREATE EXTERNAL TABLE table1(col1 string,col2 string,col3 string,)PARTITIONED BY (DAYSERIAL_NUMERIC string) STORED AS RCFILE LOCATION 's3://my-databucket/my_file_rc/'")
df = sqlContext.sql("select * from table1")

以上可以使用spark-submit运行。 注意:您需要在病房中为EMR版本5.x启用hivesupport(就像我在代码的第二行中所做的那样。