行尾的多余逗号导致read.csv和read.table

时间:2018-06-22 00:50:35

标签: r read.table read.csv

我正在尝试将此.csv file读入R。使用read.csv时,我遇到与row.names相关的错误,或者列名与其原始列发生偏移。基于this post,我认为问题与每行末尾都有一个逗号有关。在上一个问题的回答中,我找不到如何消除以逗号结尾的行。

我的解决方法是执行以下操作:

pmr <-read.csv("pubmed_result.csv", header = T, row.names = NULL)
colnames(pmr) <- c(colnames(pmr)[2:ncol(pmr)], "blank")
pmr <- pmr[1:ncol(pmr)-1]

这提供了所需的结果,但是看起来有点不雅致。有没有办法让read.csv或read.table忽略最后一个逗号?还是有一种使用gsub修复csv的方法?

1 个答案:

答案 0 :(得分:3)

您在评估中正确地认为结尾的","是引起问题的原因。确切地说,这是事实,您在数据行中有尾随",",但在声明列名的行中没有。

如果您不想像上面的代码中那样手动解决此问题,则可以使用readr::read_csv

library(tidyverse);
df <- read_csv("pubmed_result.csv");
df;
    ## A tibble: 375 x 11
#   Title   URL    Description  Details  ShortDetails Resource Type  Identifiers
#   <chr>   <chr>  <chr>        <chr>    <chr>        <chr>    <chr> <chr>
# 1 Myoedi… /pubm… Zhang Y, Lo… Physiol… Physiol Rev… PubMed   cita… PMID:29717…
# 2 Cullin… /pubm… Papizan JB,… J Biol … J Biol Chem… PubMed   cita… PMID:29653…
# 3 Fusoge… /pubm… Bi P, McAna… Proc Na… Proc Natl A… PubMed   cita… PMID:29581…
# 4 Correc… /pubm… Long C, Li … Sci Adv… Sci Adv.  2… PubMed   cita… PMID:29404…
# 5 Single… /pubm… Amoasii L, … Sci Tra… Sci Transl … PubMed   cita… PMID:29187…
# 6 Requir… /pubm… Shi J, Bi P… Proc Na… Proc Natl A… PubMed   cita… PMID:29078…
# 7 Consid… /pubm… Carroll KJ,… Circ Re… Circ Res.  … PubMed   cita… PMID:29074…
# 8 ZNF281… /pubm… Zhou H, Mor… Genes D… Genes Dev. … PubMed   cita… PMID:28982…
# 9 Functi… /pubm… Kyrychenko … JCI Ins… JCI Insight… PubMed   cita… PMID:28931…
#10 Defici… /pubm… Papizan JB,… J Clin … J Clin Inve… PubMed   cita… PMID:28872…
## ... with 365 more rows, and 3 more variables: Db <chr>, EntrezUID <int>,
##   Properties <chr>

这将引发一连串的警告,这些警告源于缺少/附加​​的尾部“,”,在这种情况下,您可以忽略该警告。请注意,列名称已正确分配。