我想将一个大型CSV文件扫描到R中。它是一种bzip格式,我不想将其解压缩以便将其读入。
它的尺寸为300万行* 400列。
我试图以行块(2000行)读取它,但只需要前5列。
我的示例代码是:
tot_impt_rows <- 2000
x <- scan(file = file.path(ps_wdir, ps_sourcedata_dir, "test.csv.bz2")
, what = c(rep("", 5), rep(NULL, 395))
, skip = 6
, nlines = tot_impt_rows
, sep = ",")
上述代码不是前5列的子集,即在扫描中导入所有400列。
我正在尝试使用&#34;什么&#34; scan()中的功能只保留特定的列(在本例中为第1列:第5列)?
任何人都可以解释如何使用scan()动态读取特定列索引(而不仅仅是前5列)。它将大大加快进口程序。