标签: pyspark
我正在尝试在pyspark中创建一个文本文件,其中日志按照相同的逻辑分布在许多不同的目录中。但是我扫描文档已经有一段时间了,除了用逗号分隔所有目录之外,它看起来不可行。
logsample = sc.textFile(“s3:// [...] / 2015/02/02/00/17 / 交易”)
知道如何指定秒,分,小时等的全部范围吗?
答案 0 :(得分:0)
使用glob模块
import glob glob.glob('./[0-9].*')