从多个目录创建textFile - PySpark

时间:2015-09-11 15:59:52

标签: pyspark

我正在尝试在pyspark中创建一个文本文件,其中日志按照相同的逻辑分布在许多不同的目录中。但是我扫描文档已经有一段时间了,除了用逗号分隔所有目录之外,它看起来不可行。

logsample = sc.textFile(“s3:// [...] / 2015/02/02/00/17 / 交易”)

知道如何指定秒,分,小时等的全部范围吗?

1 个答案:

答案 0 :(得分:0)

使用glob模块

import glob
glob.glob('./[0-9].*')