Spark RDD数据选择

时间:2016-09-27 10:54:58

标签: apache-spark rdd

我对如何在火花中做以下事情毫无头绪。我有一个文本文件,其中包含以下格式的数据:

timestamp A,B,C (\n)
A,B,C (\n)
A,B,C (\n)
...
timestamp A,B,C (\n)
A,B,C (\n)
...

我在带有sc.textFile(<path>)的RDD中阅读它当然将每一行视为一个单独的条目。

如何将时间戳与第一行分开,所以基本上创建一个时间戳地图 - &gt; entry1,entry2 ...每个条目由A,B,C组成? A,B,C总是相同的类型,分别是相同的值。

1 个答案:

答案 0 :(得分:0)

在评论中向我暗示的唯一/最佳方式是使用wholeTextFiles()。之后,我使用时间戳的正则表达式拆分字符串,最后在\n上拆分另一个。