如何从R中的数据列中删除大写字母和标点符号?

时间:2019-09-10 16:15:35

标签: r text data-cleaning

我对R超级陌生(例如,这是我的第二天),但是具有一些网络分析经验。我正在尝试准备一些数据进行分析,但是我无法对其进行清理。我需要从数据中的Twitter BIOS列中删除所有大写字母,符号和标点符号。我已经包括了数据第一部分的图片。

我已经尝试过类似文章中的代码,但是它不能正常工作,而且我不确定是否是因为我的数据格式不正确(在csv文件中)。我已经尝试过gsub,regex和其他文章中的其他一些内容,但是我确定自己犯了一些非常基本的错误,但是似乎看不到我在做什么错。

我试图添加一张我所拥有的照片,但是我似乎做不到。为了给您一个想法,我有一个名为twitterbios的csv文件,其中包含三列数据:“ UserID”,“ bio”和“ timestamp”。

我要从twitterbios数据集的bios(第2列)中删除所有标点符号,大写字母和符号。例如,您可能会说“我爱狗!!!(心脏表情符号)”。我希望它只说“我爱狗”。

这可能太含糊,无法提供任何帮助,但我非常感谢您能给我的任何建议。谢谢!

screenshot of my computer/what I have in R studio

1 个答案:

答案 0 :(得分:0)

reproducible example中,介绍如何使用stringer和dplyr软件包来完成此操作。我不确定如何摆脱表情符号,但是也许可以用空字符串替换不是字母,数字或空格的所有内容。

library(stringr)
library(dplyr)

strings <- c("HeRe is Some teXT. WhO WRITES thIs WAY?",
             "---PunctuaTION IS not A CRIME!!!!")
strings %>%
  str_to_lower() %>%
  str_replace_all("[:punct:]", "")

# [1] "here is some text who writes this way"
# [2] "punctuation is not a crime"