如何使用pyspark合并包含在不同文件夹中的文件

时间:2018-04-16 16:45:29

标签: python apache-spark pyspark rdd

在不同的文件夹中获得不同的文件。需要使用pyspark合并它们。 合并可以使用下面的代码进行,但需要读取不同文件夹中的文件

sc.textFile(<path>).coalesce(1).saveAsTextFile(<path>)

示例

/user/home/m_f012345/part0000, part0001, part0002
/user/home/m_f00120/part0000, part0001, part0002
/user/home/m_f123120/part0000, part0001, part0002
合并每个文件夹中存在的文件后

/user/home/m_f012345/part0000
/user/home/m_f00120/part0000
/user/home/m_f123120/part0000

注意:我的文件夹可能超过50个,我们没有使用任何格式的文件夹。这些是随机文件夹

1 个答案:

答案 0 :(得分:1)

以下代码可以实现上述情况。

note :: (Ord a, Num a) => Bool -> Bool -> a -> a -> String
note _ _ c d | d > 100 || c > 20 = "Wrong input"
note False False _ d = show (printGrade d)
note _ _ c d = show (printGrade (c + d))