我需要在R中读取一个csv文件。但是该文件包含一些行中的一些文本信息而不是逗号值。所以我无法使用read.csv(fileName)方法读取该文件。 该文件的内容如下:
name:russel date:21-2-1991
abc,2,saa
anan,3,ds
ama,ds,az
,,
name:rus date:23-3-1998
snans,32,asa
asa,2,saz
我只需要存储每个名称的值,日期对作为数据框。为此,我该如何阅读该文件?
实际上我所需的输出是
>dataFrame1
abc,2,saa
anan,3,ds
ama,ds,az
>dataFrame2
snans,32,asa
asa,2,saz
答案 0 :(得分:7)
您可以使用scan
阅读数据,并使用grep
和sub
函数来提取重要值。
案文:
text <- "name:russel date:21-2-1991
abc,2,saa
anan,3,ds
ama,ds,az
,,
name:rus date:23-3-1998
snans,32,asa
asa,2,saz"
这些命令生成一个包含名称和日期值的数据框。
# read the text
lines <- scan(text = text, what = character())
# find strings staring with 'name' or 'date'
nameDate <- grep("^name|^date", lines, value = TRUE)
# extract the values
values <- sub("^name:|^date:", "", nameDate)
# create a data frame
dat <- as.data.frame(matrix(values, ncol = 2, byrow = TRUE,
dimnames = list(NULL, c("name", "date"))))
结果:
> dat
name date
1 russel 21-2-1991
2 rus 23-3-1998
<强>更新强>
要从字符串中提取不包含名称和日期信息的值,可以使用以下命令:
# read data
lines <- readLines(textConnection(text))
# split lines
splitted <- strsplit(lines, ",")
# find positions of 'name' lines
idx <- grep("^name", lines)[-1]
# create grouping variable
grp <- cut(seq_along(lines), c(0, idx, length(lines)))
# extract values
values <- tapply(splitted, grp, FUN = function(x)
lapply(x, function(y)
if (length(y) == 3) y))
create a list of data frames
dat <- lapply(values, function(x) as.data.frame(matrix(unlist(x),
ncol = 3, byrow = TRUE)))
结果:
> dat
$`(0,7]`
V1 V2 V3
1 abc 2 saa
2 anan 3 ds
3 ama ds az
$`(7,9]`
V1 V2 V3
1 snans 32 asa
2 asa 2 saz
答案 1 :(得分:4)
我会首先将整个文件作为字符列表读取,即文件中每行的字符串,这可以使用readLines
来完成。接下来,您必须找到新日期数据开始的位置,即查找''
,请参阅grep
。然后取每个数据块的第一个条目,例如,使用str_extract
包中的stringr
。最后,您需要拆分所有剩余的数据字符串,请参阅strsplit
。