我在一个目录中有10000个文本文件,需要使用特定的字符串("内容")保留该行的内容,直到文件末尾。我怎么能在火花中做到这一点? 我试图用wholeTextFiles读取所有文件,然后映射和过滤值。
我只需要"内容"每个文件的一部分
From : SIDE A
To : SIDE B
Date : 9999.99
March 03
=> Content :
----------------------------------------
Content starts from here
and continues until last line
of each file.