在R Dataframe中的两个不同字符之间提取文本

时间:2019-05-06 11:56:09

标签: r

我有一个来自IMDB的数据框,它在一个数据框中显示了这样的标题:

tt0031381   movie   Gone with the Wind  Gone with the Wind  0   1939    \N  238 Drama
tt0116695   movie   Jerry Maguire   Jerry Maguire   0   1996    \N  139 Comedy

我正在尝试提取movie0之间的数据

我试图在堆栈溢出中寻找答案,但是其中许多是针对特定字符的,因此我很难区分出问题中的字符并将其应用于文本问题。

数据帧信息:

movies <- data.frame(V1=c("tt0031381    movie   Gone with the Wind  Gone with the Wind  0   1939    \N  238 Drama", "tt0116695  movie   Jerry Maguire   Jerry Maguire   0   1996    \N  139 Comedy")

我确实尝试过

movies$title <- sub('movie', '0', movies$V1)

,但只重复了该列。有人可以协助吗?

我见过这个link,但我不知道如何将其应用于我的情况。

我也尝试过:

library(qdapRegex)

movies$title <- rm_between(movies$V1, 'movie', '0', extract=TRUE)[[1]] 

但这只是将第一个标题应用于每行,这并不准确

0 个答案:

没有答案