Question

我有一个大型数据集，看起来像这样，有几十万个条目，保存为data：

        Group1      dtm_Flight_Date       Departure Arrival str_Fare_Category_Ident 
        1   8P104   06/11/2010 9:05         YYJ     YVR     B   
        2   8P104   06/11/2010 9:05         YYJ     YVR     K  
        3   8P104   06/11/2010 9:05         YYJ     YVR     L   
        4   8P104   06/11/2010 9:05         YYJ     YVR     N   
        5   8P104   06/11/2010 9:05         YYJ     YVR     Q  
        6   8P104   06/11/2010 9:05         YYJ     YVR     Y  
        7   8P104   6/14/2010 9:05:00 AM    YYJ     YVR     B  
        8   8P104   6/14/2010 9:05:00 AM    YYJ     YVR     K  
        9   8P104   6/14/2010 9:05:00 AM    YYJ     YVR     L   
        10  8P104   6/14/2010 9:05:00 AM    YYJ     YVR     N

现在，我想要做的是基于＆＃39; str_Fare_Category_Ident＆＃39;对数据进行子集化，特别是在它等于Y的情况下。虽然我认为这应该是我之前做过的一项简单的任务，我遇到了一些麻烦。

我试过了

     public_bc <- data[data[, 5]=="Y", ]

但这只返回一个空数据框。还尝试过：

     public_bc <- data[data$str_Fare_Category_Ident=="Y", ]

同样的问题。

我尝试使用subset（），但也无济于事：

    public_bc <- subset(data, data[, 5]=="Y")

还返回一个空数据框。

str_Fare_Category_Ident目前是一个因素，但我也尝试将其更改为as.character（）而没有任何变化。

Answer 1

如果存在滞后/前导空格，则可能发生这种情况。删除它们，它应该工作。

 library(stringr)
 data[,5] <- str_trim(data[,5])

或者

 data[,5] <- gsub('^\\s+|\\s+$', '', data[,5])     
 data[data[,5]=='Y',]

不删除空格的另一个选项是grep

 data[grep('\\bY\\b', data[,5]),]

（R）[] / subset（）返回一个空数据帧

1 个答案: