将csv文件与不匹配的列组合在一起

时间:2018-02-27 00:41:35

标签: csv apache-spark pyspark spark-dataframe data-analysis

我需要将多个csv文件合并到一个对象中(我假设是一个数据帧),但它们都有不匹配的列,如下所示:

CSV A

store_location_key | product_key | collector_key | trans_dt | sales | units | trans_key

CSV B

collector_key | trans_dt | store_location_key | product_key | sales | units | trans_key

CSV C

collector_key | trans_dt | store_location_key |product_key | sales | units | trans_id

最重要的是,我需要这些匹配两个具有匹配列的其他csv文件:

位置CSV

store_location_key | region | province | city | postal_code | banner | store_num

产品CSV

product_key | sku | item_name | item_description | department | category

数据类型都是一致的,即sales列总是浮点数,store_location_key总是int等等。即使我先将每个csv转换为数据帧,我也不确定{{1}因为列需要匹配的方式,所以会工作(最后两个除外)。

0 个答案:

没有答案