PySpark textFile命令中的正则表达式

时间:2015-06-18 15:34:32

标签: python regex apache-spark glob pyspark

我试图弄清楚我可以在选择多个感兴趣的文件时推动此命令。例如,我使用以下通配符来获取跨多个目录感兴趣的所有文件,但是我想使用正则表达式等来限制目录名称的长度。

lines = sc.textFile("/home/spark-1.4.0/A/B_2*/Output/CSV.csv")

但是,我可以限制目录名的长度而不是*吗?例如^[0-9]{8}$?或者以任何方式执行此操作,而无需借助预过滤来构建有效目录列表。

1 个答案:

答案 0 :(得分:1)

只是为了保持你想要的东西,这是一个简单的glob没有正则表达式。你可以这样做:

glob = "/home/spark-1.4.0/A/B_2{0}/Output/CSV.csv".format("[0-9]" * 8)
lines = sc.textFile(glob)