Question

我尝试在s3中加载一个总共100万行数据的随机样本。有没有一种简单的方法可以将s3中的随机样本直接加载到pyspark数据帧中？

在熊猫中，这就是这个 df = pandas.read_csv(filename, skiprows=skiplines)

我可以使用pyspark中的等效物吗？

Answer 1

默认情况下，我认为spark DataFrameReader.csv lazy为pyspark.sql.DataFrame.sample ^{[citation needed]}。

因此，您应该能够阅读csv并使用this answer：

frac = 0.01 # get approximately 1%
df = spark.read.csv(filename)
sample = df.sample(withReplacement=False, fraction=frac)

但是在应用转换之前没有任何实际执行。