Question

我有一个来自IMDB的数据框，它在一个数据框中显示了这样的标题：

tt0031381   movie   Gone with the Wind  Gone with the Wind  0   1939    \N  238 Drama
tt0116695   movie   Jerry Maguire   Jerry Maguire   0   1996    \N  139 Comedy

我正在尝试提取movie和0之间的数据

我试图在堆栈溢出中寻找答案，但是其中许多是针对特定字符的，因此我很难区分出问题中的字符并将其应用于文本问题。

数据帧信息：

movies <- data.frame(V1=c("tt0031381    movie   Gone with the Wind  Gone with the Wind  0   1939    \N  238 Drama", "tt0116695  movie   Jerry Maguire   Jerry Maguire   0   1996    \N  139 Comedy")

我确实尝试过

movies$title <- sub('movie', '0', movies$V1)

，但只重复了该列。有人可以协助吗？

我见过这个link，但我不知道如何将其应用于我的情况。

我也尝试过：

library(qdapRegex)

movies$title <- rm_between(movies$V1, 'movie', '0', extract=TRUE)[[1]]

但这只是将第一个标题应用于每行，这并不准确

在R Dataframe中的两个不同字符之间提取文本

0 个答案: