我已将.doc文档转换为.txt,并且我有一些奇怪的格式,我无法删除(从查看其他帖子,我认为它是在Hex代码中,但我不确定)。< / p>
我的数据集是一个包含两列的数据框,一列标识发言者,第二列标识评论。有些字符串现在有奇怪的字符。例如,最初说的一个字符串(减去引号):
"Why don't we start with a basic overview?"
但是当我将它转换为.txt后我在R中读到它时,它现在显示为:
"Why don<92>t we start with a basic overview?"
我试过了:
df$comments <- gsub("<92>", "", df$comments)
然而,这并没有改变任何事情。此外,每当我在一个单元格中进行任何其他替换时(例如,更改&#34;开始&#34;到&#34;开始&#34;,它会将该特殊字符更改为一系列奇怪的?那个&#39; re盒子里包围着。
任何帮助都将非常感谢!
编辑: 我这样读了我的文字:
df <- read_delim("file.txt", "\n", escape_double = F, col_names = F, trim_ws = T)
它有2列;第一个是发言人,第二个是评论。
答案 0 :(得分:-1)
我在这里找到答案:R remove special characters from data frame
此代码有效:gsub(“[^ 0-9A-Za-z ///']”,“”,a)