Question

我正在尝试找到一种基于某些字符串的出现快速清理大型数据集的方法。我有一个看起来像这样的data.frame：

created_at  actor_attributes_email      type
3/11/12 7:28    jeremy@asynk.ch         Event
3/11/12 7:28    jeremy@asynk.ch         PushEvent
3/11/12 7:28    jeremy@asynk.ch         PushEvent
3/11/12 7:42    jeremy@asynk.ch         IssueCommentEvent
3/11/12 11:06   d.bussink@gmail.com     PushEvent
3/11/12 11:06   d.bussink@gmail.com     PushEvent

您可以找到完整的CSV here。

我正在编写“在R中查找和删除”的命令：

# Load CSV file
events.raw <- read.csv(file = "input.csv", header = TRUE)

# Delete events called "Event"
events.raw.new <- events.raw[!grepl("Event", events.raw$type, fixed = TRUE),]

我的代码现在删除了每一行，我不太确定，因为我使用的是fixed = TRUE参数。我想要的是删除“Event”是完整字符串的所有行，因为它是每行中的子字符串。如何限制我的代码来完成字符串？

Answer 1

问题的一个答案是：

events.raw <- subset(events.raw, type!="Event")

然而，这并没有解决

的问题

events.raw.new <- events.raw[!grepl("Event", events.raw$type, fixed = TRUE),]

没有达到同样的目的。

用于“查找和删除”完整字符串而不是R中的子字符串的代码？

1 个答案: