Spark:在文本文件中的分隔符后读取所有行

时间:2016-10-20 21:01:27

标签: apache-spark pyspark

我在一个目录中有10000个文本文件,需要使用特定的字符串("内容")保留该行的内容,直到文件末尾。我怎么能在火花中做到这一点? 我试图用wholeTextFiles读取所有文件,然后映射和过滤值。

我只需要"内容"每个文件的一部分

        From :  SIDE A
        To :  SIDE B
        Date : 9999.99
               March 03
=>      Content :
        ----------------------------------------
                Content starts from here            
                and continues until last line 
                of each file.

0 个答案:

没有答案