Spark中的非换行导向输入

时间:2015-08-05 13:26:30

标签: python apache-spark pyspark

我正在使用PySpark(Spark 1.4.1)来处理一些数据。 原始数据文件如下所示

2015-06-07 14:44:56.09
username='Maria'
age=22

2015-06-07 14:44:56.10
username='tom'
age=38

当我读入文本文件

text_rdd = sc.textFile('somefile.txt')

并查看记录,每行被视为单独的记录。 有可能以某种方式将多行输入读入一个记录吗?

基于此http://apache-spark-user-list.1001560.n3.nabble.com/example-of-non-line-oriented-input-data-td2750.html,您必须使分区显示并将记录连接成1个字符串。然而,这个链接是从2014年开始的,我想知道是否有人对这种情况有任何好的解决方案。

非常感谢!

0 个答案:

没有答案