从推文中提取表情符号

时间:2014-11-21 05:30:58

标签: regex r gsub

好的,我已经花了好几个小时试图弄清楚如何做到这一点。我有大约47000条推文,我想从中提取表情符号:) :) :-) :(:@:S: - [:[: - ]:]等...但我做了一些可怕的错误。所以,而不是存储这些表情符号,我删除了它们。无论如何,我的想法是我要清理推文,如果他们喜欢这样:

askdfud :) sineirhlkj:D:)9iejsl。我想在表情符号和单词之间加上空格。此外,我不想删除撇号,例如“不”,“不”。我使用gsub在R中执行此操作。

  jsonText <- gsub("http\\S+\\s*", " ", jsonText)

   #remove punctuation
   #jsonText <- gsub("[[:punct:]]", "", jsonText)
   jsonText <- gsub("[:][ ]|[:][a-zA-Z][(^DoO)]|[:][1-9]", " ", jsonText)
   #jsonText <- gsub("[:][^-(@$\\[]", " ", jsonText)
   jsonText <- gsub("[!]", " ", jsonText)
   jsonText <- gsub("[?]", " ", jsonText)
   jsonText <- gsub("[,]", " ", jsonText)
   jsonText <- gsub("[.]{1,2}", " ", jsonText)
   jsonText <- gsub("[*]", " ", jsonText)
   #jsonText <- gsub("[#]", " ", jsonText)
   #jsonText <- gsub("[^#a-zA-z0-9]|[#]\\s", " ", jsonText)
   jsonText <- gsub("[-]+\\s", " ", jsonText)   
   jsonText <- gsub("['0-9]{1,2}", " ", jsonText)
   #jsonText <- gsub("[a-zA-Z0-9][-]", " ", jsonText)
   jsonText <- gsub("(?)[:]", " :", jsonText)
   jsonText <- gsub("(?)[;]", " ;", jsonText)
   jsonText <- gsub("[:][^-)(@$]", " ", jsonText)

   jsonText <- gsub("[^a-zA-z0-9][']", " ", jsonText)

0 个答案:

没有答案