使用位置列

时间:2018-03-16 12:33:48

标签: apache-spark spark-dataframe parquet

我正在尝试使用spark将镶木地板文件读入Dataframe。我的要求是使用镶木地板文件的镶木地板路径在数据框中创建另一列。

例如:我在hdfs的以下路径中有镶木地板文件: /event/2018-01-01/abc/xyz=10/parquet1.parquet /event/2018-01-01/abc/xyz=10/parquet2.parquet

我想读取/ event / 2018-01-01 / abc中的所有文件并创建一个列" dt"在数据框中指定路径中的日期。如何从路径中提取日期并将其创建为spark数据框中的列?

0 个答案:

没有答案