我正在使用PySpark(Spark 1.4.1)来处理一些数据。 原始数据文件如下所示
2015-06-07 14:44:56.09
username='Maria'
age=22
2015-06-07 14:44:56.10
username='tom'
age=38
当我读入文本文件
时text_rdd = sc.textFile('somefile.txt')
并查看记录,每行被视为单独的记录。 有可能以某种方式将多行输入读入一个记录吗?
基于此http://apache-spark-user-list.1001560.n3.nabble.com/example-of-non-line-oriented-input-data-td2750.html,您必须使分区显示并将记录连接成1个字符串。然而,这个链接是从2014年开始的,我想知道是否有人对这种情况有任何好的解决方案。
非常感谢!