我试图弄清楚我可以在选择多个感兴趣的文件时推动此命令。例如,我使用以下通配符来获取跨多个目录感兴趣的所有文件,但是我想使用正则表达式等来限制目录名称的长度。
lines = sc.textFile("/home/spark-1.4.0/A/B_2*/Output/CSV.csv")
但是,我可以限制目录名的长度而不是*
吗?例如^[0-9]{8}$
?或者以任何方式执行此操作,而无需借助预过滤来构建有效目录列表。
答案 0 :(得分:1)
只是为了保持你想要的东西,这是一个简单的glob没有正则表达式。你可以这样做:
glob = "/home/spark-1.4.0/A/B_2{0}/Output/CSV.csv".format("[0-9]" * 8)
lines = sc.textFile(glob)