RDD的Spark重复数据删除以获得更大的RDD

时间:2017-06-07 15:51:26

标签: duplicates pyspark union

我有一个从磁盘加载的数据框

df_ = sqlContext.read.json("/Users/spark_stats/test.json")

它包含500k行 我的脚本在这个大小上运行正常,但是我想测试一下例如5M行,有没有办法复制df 9次? (对我来说,在df中复制是没关系的)

我已经使用了union,但它确实太慢了(因为我认为它每次都会从磁盘上读取)

df = df_
for i in range(9): 
    df = df.union(df_)

你对干净的方法有所了解吗?

由于

1 个答案:

答案 0 :(得分:0)

你可以使用爆炸。它应该只从原始磁盘读取一次:

from pyspark.sql.types import *
from pyspark.sql.functions import *

schema = StructType([StructField("f1", StringType()), StructField("f2", StringType())])

data = [("a", "b"), ("c", "d")]
rdd = sc.parallelize(data)
df = sqlContext.createDataFrame(rdd, schema)

# Create an array with as many values as times you want to duplicate the rows
dups_array = [lit(i) for i in xrange(9)]
duplicated = df.withColumn("duplicate", array(*dups_array)) \
               .withColumn("duplicate", explode("duplicate")) \
               .drop("duplicate")