我在azure数据湖中有一个目录,其中包含以下路径:
' ADL://home/../psgdata/clusters/iptiqadata-prod-cluster-eus2-01/psgdata/mib'
在此目录中,有许多其他目录(50)的格式为20190404。
目录' adl://home/../psgdata/clusters/iptiqadata-prod-cluster-eus2-01/psgdata/mib/20180404'包含我正在使用的100个左右的xml文件。
我可以为每个子文件夹创建一个rdd工作正常,但理想情况下我只想传递顶部路径,并且让火花以递归方式查找文件。我已阅读其他SO帖子并尝试使用通配符:
pathWild = 'adl://home/../psgdata/clusters/iptiqadata-prod-cluster-eus2-01/psgdata/mib/*'
rdd = sc.wholeTextFiles(pathWild)
rdd.count()
但它只是冻结并且什么都不做,似乎完全破坏了内核。我在Spark 2.x上的Jupyter工作。新的火花。谢谢!
答案 0 :(得分:1)
试试这个:
pathWild = 'adl://home/../psgdata/clusters/iptiqadata-prod-cluster-eus2-01/psgdata/mib/*/*'