在Pyspark中Concat多个文件

时间:2018-10-25 12:24:05

标签: pandas pyspark

想要像在熊猫中那样,使用pyspark在单个数据框中连接多个文件的内容。

文件1:

Fail fail.

文件2:

1  
2  
3  

预期输出:

a  
b  
c  
d  

1 个答案:

答案 0 :(得分:0)

spark = SparkSession.Builder().master(
        <master_url>
    ).config(conf=<spark_config>).appName(<app_name>)
spark_session = spark.getOrCreate()

df = spark_session.read \
     .format("com.databricks.spark.avro") \
     .option("mergeSchema", "true") \
     .load(<csv_path_1>, <csv_path2>)

此处df将是spark数据帧。

注意:-在运行此代码之前,请安装spark_avro jar软件包,或在您的spark配置中添加以下行以安装spark-avro软件包。

"spark.jars.packages": "com.databricks:spark-avro_2.11:4.0.0"