读取大量CSV文件并进行过滤以摆脱无法使用的标题

时间:2018-09-19 20:04:07

标签: r csv

我正在使用包read_bulk读取大量CSV文件。

  dfc <- data.frame(read_bulk(directory = "C:/place/with/data", 
            subdirectories = FALSE, 
            extension = ".csv",
            data = NULL,
            verbose = TRUE, 
            fun = utils::read.csv, stringsAsFactors = FALSE, is.na(" ")))

  names(dfc) <- c("Headers", "I", "Want", "Instead")

  write_csv(dfc, path = paste("Data"," ",Sys.Date(),".csv"))

,它工作正常,但我希望将标题删除。标头= FALSE在read_bulk中不起作用。我以为这样做很简单

  dfc %>%
     filter(Headers != "undesirable headers from read_bulk") 

我分配了名称后,但这没有用。我还尝试使用str_extract_all来查找“来自read_bulk的不想要的标头”,但这也不起作用。

所有数据的str都是字符,尽管所有数据的第一列标题在read_bulk之后的列名称前都有»。这是编码问题吗?这会导致我的数据不被过滤吗?

虚拟数据

  CSV Dataset 1           CSV Dataset2              ...etc more datasets

  Facility ID Status      Facility ID Status
  abc      1  A           def      5  A
  efg      2  B           lmo      8  B
  hij      3  A           pqr      9  C
  abc      4  B           xyz      7  B

read_bulk虚拟数据后的R输出

  Facility ID Status
  abc            1  A
  efg            2  B
  hij            3  A
  abc            4  B
  Facility ID Status
  def            5  A
  lmo            8  B
  pqr            9  C
  xyz            7  B

我想从我的数据集中删除这些标头

0 个答案:

没有答案