我有一个来自IMDB的数据框,它在一个数据框中显示了这样的标题:
tt0031381 movie Gone with the Wind Gone with the Wind 0 1939 \N 238 Drama
tt0116695 movie Jerry Maguire Jerry Maguire 0 1996 \N 139 Comedy
我正在尝试提取movie
和0
之间的数据
我试图在堆栈溢出中寻找答案,但是其中许多是针对特定字符的,因此我很难区分出问题中的字符并将其应用于文本问题。
数据帧信息:
movies <- data.frame(V1=c("tt0031381 movie Gone with the Wind Gone with the Wind 0 1939 \N 238 Drama", "tt0116695 movie Jerry Maguire Jerry Maguire 0 1996 \N 139 Comedy")
我确实尝试过
movies$title <- sub('movie', '0', movies$V1)
,但只重复了该列。有人可以协助吗?
我见过这个link,但我不知道如何将其应用于我的情况。
我也尝试过:
library(qdapRegex)
movies$title <- rm_between(movies$V1, 'movie', '0', extract=TRUE)[[1]]
但这只是将第一个标题应用于每行,这并不准确