我尝试在s3中加载一个总共100万行数据的随机样本。 有没有一种简单的方法可以将s3中的随机样本直接加载到pyspark数据帧中?
在熊猫中,这就是这个
df = pandas.read_csv(filename, skiprows=skiplines)
我可以使用pyspark中的等效物吗?
答案 0 :(得分:1)
默认情况下,我认为spark DataFrameReader.csv
lazy为pyspark.sql.DataFrame.sample
[citation needed] 。
因此,您应该能够阅读csv并使用this answer:
frac = 0.01 # get approximately 1%
df = spark.read.csv(filename)
sample = df.sample(withReplacement=False, fraction=frac)
但是在应用转换之前没有任何实际执行。