从R中的字符串中删除Hex代码

时间:2018-05-31 18:07:06

标签: r string text replace gsub

我已将.doc文档转换为.txt,并且我有一些奇怪的格式,我无法删除(从查看其他帖子,我认为它是在Hex代码中,但我不确定)。< / p>

我的数据集是一个包含两列的数据框,一列标识发言者,第二列标识评论。有些字符串现在有奇怪的字符。例如,最初说的一个字符串(减去引号):

"Why don't we start with a basic overview?"

但是当我将它转换为.txt后我在R中读到它时,它现在显示为:

"Why don<92>t we start with a basic overview?"

我试过了:

df$comments <- gsub("<92>", "", df$comments)

然而,这并没有改变任何事情。此外,每当我在一个单元格中进行任何其他替换时(例如,更改&#34;开始&#34;到&#34;开始&#34;,它会将该特殊字符更改为一系列奇怪的?那个&#39; re盒子里包围着。

任何帮助都将非常感谢!

编辑: 我这样读了我的文字:

df <- read_delim("file.txt", "\n", escape_double = F, col_names = F, trim_ws = T)

它有2列;第一个是发言人,第二个是评论。

1 个答案:

答案 0 :(得分:-1)

我在这里找到答案:R remove special characters from data frame

此代码有效:gsub(“[^ 0-9A-Za-z ///']”,“”,a)