删除重复出现的文本字符串

时间:2018-11-16 07:57:49

标签: r regex

我是R的新手,并且已经在论坛上搜索了将近2个小时,但没有为我工作。

我的问题:我从互联网上抓取了一个长文本字符串。当我抓取图像的代码被包括在内。的编码方式是,它们以new Vector3(objectstoMove[i].transform.position.x + 50, 0, 0), step); 开头,以"Embed from Getty Images"结尾。我想删除这些字符串之间的所有内容。我已经尝试过"false })});\n"

gsub()

但是随后发生的是,它们删除了第一张图片和最后一张图片之间的所有内容。有人知道如何解决这个问题吗?

1 个答案:

答案 0 :(得分:1)

您需要使用非贪婪的正则表达式。

尝试

AmericanTexts3<-gsub("Embed.*?})});\n","",AmericanTexts)

?与正则表达式第二部分的第一个匹配项匹配,因此只应删除匹配项之间的部分。