如何使用Spark同时读取不同文件夹中的多个文件?

时间:2018-12-13 16:25:04

标签: apache-spark apache-zeppelin

我试图同时读取不同路径下的多个文件。在sql server中,路径“ /mapr/ia1.comscore.com/output/cms/cmcm/227m/2018????/app/RunningApp/part-.txt”告诉服务器读取所有正在运行的应用文件夹中的文件227m(2018年11月)。 '2018 ????'表示2018年11月的所有日期。这样,我们不必告诉sql server逐个读取每个日期。在这里'2018 ????'表示从“ 20181101”到“ 20181130”的所有日期。我想在spark中做同样的事情,但是似乎spark无法识别这种路径格式。我也曾尝试更改'2018 ????'太“ 2018 ”,仍然无法正常工作。

有人知道如何解决此问题吗?

请注意,“ / mapr / ia1.comscore.com / output / cms / cmcm / 227m / 20181101 / app / RunningApp / part-*。txt”)在火花中效果很好。

我正在使用齐柏林飞艇作为笔记本。

非常感谢。

1 个答案:

答案 0 :(得分:0)

最简单的方法是传递路径列表,例如 sparkContext.read.text(paths=[path1, path2, ...])