R - 阅读镶木地板文件的一部分

时间:2017-07-21 17:33:52

标签: r parquet sparklyr

有没有办法从拼花文件中读取特定数量的行?与来自nrows的{​​{1}}的{​​{1}}类似的内容。我有一个庞大的数据需要很长时间才能阅读,但我只是想分析它的结构和完整性。

我只需阅读我的镶木地板数据的某些行,并且似乎使用Sparklyr的函数fread无法做到。

1 个答案:

答案 0 :(得分:0)

由于spark_read_xxx系列函数返回Spark DataFrame,因此您可以使用%>%运算符在读取文件后始终过滤和收集结果。例如,如果你只想要文件的前两行,你可以这样做:

DF <- spark_read_csv(sc, name = "mtcars", path = "R/mtcars.csv", header = FALSE, delimiter = ";")

DF %>% head(2) %>% dplyr::collect()
# A tibble: 2 x 12
             V1    V2    V3    V4    V5    V6    V7    V8    V9   V10   V11   V12
          <chr> <chr> <int> <chr> <int> <chr> <chr> <chr> <int> <int> <int> <int>
1     Mazda RX4    21     6   160   110   3,9  2,62 16,46     0     1     4     4
2 Mazda RX4 Wag    21     6   160   110   3,9 2,875 17,02     0     1     4     4

我在这里使用spark_read_csv函数,但结果应与spark_read_parquet相同,因为两个函数都返回相同的结构。