R使用正则表达式选择data.frame中的所有字段

时间:2015-06-23 20:27:28

标签: regex r quotes write.table

我需要在R中保存带有write.table的data.table。问题是某些值(从互联网上下载)只有一个“。我不能选择不同的引号字符,因为我可以阅读.table(我觉得很糟糕。)所以我读过使用gsub()来选择所有字段,并替换它们添加不同的引号,最后在write.table中使用quote = F(使用sep =“\ T“)。

让我们说这是我的桌子:

field1  field2  field3
valueA  valueB  valueC
valueD  valueE  valueF
valueG  value\"H    valueI

由于“有价值”H我的报价有问题,需要一个不同的引号,我确信这个字符不会出现在文件的任何其他地方,比如一个汉字。所以,我想用gsub生成这个:

乃field1乃    乃field2乃    乃field3乃
乃valueA乃    乃valueB乃    乃valueC乃
乃valueD乃    乃valueE乃    乃valueF乃
乃valueG乃    乃value\"H乃  乃valueI乃

但是如何用gsub()选择所有字段?我无法找到正确的正则表达式。提前谢谢!

2 个答案:

答案 0 :(得分:2)

您可以尝试paste

 df1[] <- lapply(df1, function(x) paste0('乃', x, '乃'))
 df1
 #   field1      field2     field3
 #1 乃valueA乃  乃valueB乃 乃valueC乃
 #2 乃valueD乃  乃valueE乃 乃valueF乃
 #3 乃valueG乃 乃value"H乃 乃valueI乃

数据

 df1 <- structure(list(field1 = c("valueA", "valueD", "valueG"), 
 field2 = c("valueB", 
 "valueE", "value\"H"), field3 = c("valueC", "valueF", "valueI"
 )), .Names = c("field1", "field2", "field3"), row.names = c(NA, 
 -3L), class = "data.frame")

答案 1 :(得分:0)

为了完整性(akrun的版本通过paste更适合此处),这是使用gsub

df <- read.table(text='field1 field2 field3
                       valueA valueB valueC
                       valueD valueE valueF
                       valueG value\"H valueI')

as.data.frame( lapply(df, function(x) gsub("(.*)","乃\\1乃",x)) )

#          V1          V2        V3
# 1 乃field1乃  乃field2乃 乃field3乃
# 2 乃valueA乃  乃valueB乃 乃valueC乃
# 3 乃valueD乃  乃valueE乃 乃valueF乃
# 4 乃valueG乃 乃value"H乃 乃valueI乃