我对如何在火花中做以下事情毫无头绪。我有一个文本文件,其中包含以下格式的数据:
timestamp A,B,C (\n)
A,B,C (\n)
A,B,C (\n)
...
timestamp A,B,C (\n)
A,B,C (\n)
...
我在带有sc.textFile(<path>)
的RDD中阅读它当然将每一行视为一个单独的条目。
如何将时间戳与第一行分开,所以基本上创建一个时间戳地图 - &gt; entry1,entry2 ...每个条目由A,B,C组成? A,B,C总是相同的类型,不分别是相同的值。
答案 0 :(得分:0)
在评论中向我暗示的唯一/最佳方式是使用wholeTextFiles()
。之后,我使用时间戳的正则表达式拆分字符串,最后在\n
上拆分另一个。