如何使用R删除多次出现的相似类型的字符串?

时间:2017-03-25 13:07:33

标签: r

我是R编程的新手,我正在进行文本挖掘。如何在文档中多次出现类似类型的字符串(例如“android”,“androidaaadeshnimbolafalsefalsenana”,“androidaaamirhatruefalsenana”等),以便获得干净的文档以供进一步处理。我已经尝试过gsub,这个词的变化很大如果手动完成所有变化,将花费大量时间。 请帮忙..!

1 个答案:

答案 0 :(得分:1)

你可以在gsub中使用正则表达式来开始以android

开头的任何工作
txt <- 'I am new to R programming and I am performing Text mining. How to remove similar type of strings (eg. "android", "androidaaadeshnimbolafalsefalsenana", "androidaaamirhatruefalsenana" etc with multiple occurrence in a document so to get clean document for further processing. I have already tried gsub and the variation in the word is huge which will take a lot of time if it is done manually for all the variations. Please help.'

gsub("\\bandroid\\w*\\b", "", txt)
  

[1]“我是R编程新手,我正在进行文本挖掘。如何删除类似类型的字符串(例如。\”\“,\”\“,\”\“等多次出现为了获得进一步处理,请记录下来。我已经尝试了gsub,这个词的变化是巨大的,如果手动完成所有变化,将会花费很多时间。请帮忙。“

\b标记单词的开头和结尾,\w*查找零个或多个单词字符。