pyspark将混合类型的元组列表转换为给出空值的数据框

时间:2018-11-29 21:10:23

标签: list apache-spark pyspark tuples

我有一个计算内容并返回元组列表的函数,它看起来像这样:

def check():
   [...]
   return [("valid": 1, "wrong": 4, "lines":["line1","line2"])]

然后我想将所有这些值加在一起以得到最终计数

rdd = lines.mapPartitions(lambda x: check()).reduceByKey(lambda a,b: a+b)

结果类似于

  

[(“ valid”:102),(“ wrong”:322),(“ lines”:[“ test1”,“ test2”,   “ test2”]))

我的目标是能够在一个(或多个)文件中写入“行”元组,并在一个单独的文件中写入有效和错误的计数。

我的问题是:目前使用的数据是否有更好的数据结构?如果没有,如何在列表中搜索“行”元组?

也许更好,是否有可能将RDD转换为我可以对其进行SQL选择的数据框?

我尝试了rdd.toDF().show(),但是由于某些原因,“行”的值列变成了null

0 个答案:

没有答案