想要像在熊猫中那样,使用pyspark在单个数据框中连接多个文件的内容。
文件1:
Fail fail.
文件2:
1
2
3
预期输出:
a
b
c
d
答案 0 :(得分:0)
spark = SparkSession.Builder().master(
<master_url>
).config(conf=<spark_config>).appName(<app_name>)
spark_session = spark.getOrCreate()
df = spark_session.read \
.format("com.databricks.spark.avro") \
.option("mergeSchema", "true") \
.load(<csv_path_1>, <csv_path2>)
此处df将是spark数据帧。
注意:-在运行此代码之前,请安装spark_avro jar软件包,或在您的spark配置中添加以下行以安装spark-avro软件包。
"spark.jars.packages": "com.databricks:spark-avro_2.11:4.0.0"