Question

我有24个大型JSON文件，我只需要每个文件的一个小的随机样本。是否可以选择此文件的“stream_in”样本？问题是某些文件太大，因此无法在整个文件中stream_in或在r中打开整个文件。

到目前为止，我做了stream_in和这样的采样：

Beauty <- stream_in(file("Beauty_5.json"))
beauty_sample_operational <- sample_n(Beauty, 385)

是否可以将这两个步骤结合起来？

二手packadges：

dplyr
jsonlite

Answer 1

你可以这样做：

my_files <- list(...list here your files...)
purrr::map(my_files, ~ stream_in(file(.x)) %>% sample_n(385))