Question

我对如何在火花中做以下事情毫无头绪。我有一个文本文件，其中包含以下格式的数据：

timestamp A,B,C (\n)
A,B,C (\n)
A,B,C (\n)
...
timestamp A,B,C (\n)
A,B,C (\n)
...

我在带有sc.textFile(<path>)的RDD中阅读它当然将每一行视为一个单独的条目。

如何将时间戳与第一行分开，所以基本上创建一个时间戳地图 - ＆gt; entry1，entry2 ...每个条目由A，B，C组成？ A，B，C总是相同的类型，不分别是相同的值。

Answer 1

在评论中向我暗示的唯一/最佳方式是使用wholeTextFiles()。之后，我使用时间戳的正则表达式拆分字符串，最后在\n上拆分另一个。