Question

因此，data是一个由许多列组成的数据框，其中一个名为lpep_pickup_datetime的日期和时间格式为＆＃34; 01/01/2016 12:39：上午36点＆＃34;

我想按日期和时间分析这些数据，因此我尝试创建一个名为pickup_date的新列和一个名为pickup_time的列，其中包含AM或PM信息。

我使用strsplit函数将字符串拆分为以下形式：c（＆＃34; 01/01 / 2016＆＃34;，＆＃34; 12：29：24＆＃34;，＆＃34; AM＆＃34;），我正试图从这些数据中创建上述列。

我写了以下代码：

data$lpep_pickup_datetime=strsplit(data$lpep_pickup_datetime, " ")

data$pickup_date=data$lpep_pickup_datetime[[1]][1]


for (i in seq(1,90181))
{
  data$pickup_time[i]=data$lpep_pickup_datetime[[i]][2]  
}

这非常低效，因为迭代90181行数据需要很长时间。有没有更好的方法来完成这项任务？

感谢。

Answer 1

在base R中，我们可以使用sub创建分隔符，然后使用read.csv创建两列

data[paste0("pickup_", c("date", "time"))] <- read.csv(text=sub("\\s+", 
         ",", data$lpep_pickup_datetime),  header=FALSE, stringsAsFactors=FALSE)

Answer 2

?apply(df, 2, function(...) )是迭代列的常用方法。但你不需要在这里这样做

> df<-data.frame("datetime" = format(seq(c(ISOdate(2000,3,20)), by = "day", length.out = 100000), "%Y-%m-%d %r"), stringsAsFactors=FALSE)
> str(df)
'data.frame':   100000 obs. of  1 variable:
 $ datetime: chr  "2000-03-20 08:00:00 PM" "2000-03-21 08:00:00 PM" "2000-03-22 08:00:00 PM" "2000-03-23 08:00:00 PM" ...
> df$dateonly<-format(as.Date(df$datetime, format="%Y-%m-%d %r"),"%Y-%m-%d")
> head(df)
                datetime   dateonly
1 2000-03-20 08:00:00 PM 2000-03-20
2 2000-03-21 08:00:00 PM 2000-03-21
3 2000-03-22 08:00:00 PM 2000-03-22
4 2000-03-23 08:00:00 PM 2000-03-23
5 2000-03-24 08:00:00 PM 2000-03-24
6 2000-03-25 08:00:00 PM 2000-03-25

如何有效地遍历数据框的列？

2 个答案: