Question

想要像在熊猫中那样，使用pyspark在单个数据框中连接多个文件的内容。

文件1：

Fail fail.

文件2：

1  
2  
3

预期输出：

a  
b  
c  
d

Answer 1

spark = SparkSession.Builder().master(
        <master_url>
    ).config(conf=<spark_config>).appName(<app_name>)
spark_session = spark.getOrCreate()

df = spark_session.read \
     .format("com.databricks.spark.avro") \
     .option("mergeSchema", "true") \
     .load(<csv_path_1>, <csv_path2>)

此处df将是spark数据帧。

注意：-在运行此代码之前，请安装spark_avro jar软件包，或在您的spark配置中添加以下行以安装spark-avro软件包。

"spark.jars.packages": "com.databricks:spark-avro_2.11:4.0.0"

在Pyspark中Concat多个文件

1 个答案: