Question

我已将.doc文档转换为.txt，并且我有一些奇怪的格式，我无法删除（从查看其他帖子，我认为它是在Hex代码中，但我不确定）。< / p>

我的数据集是一个包含两列的数据框，一列标识发言者，第二列标识评论。有些字符串现在有奇怪的字符。例如，最初说的一个字符串（减去引号）：

"Why don't we start with a basic overview?"

但是当我将它转换为.txt后我在R中读到它时，它现在显示为：

"Why don<92>t we start with a basic overview?"

我试过了：

df$comments <- gsub("<92>", "", df$comments)

然而，这并没有改变任何事情。此外，每当我在一个单元格中进行任何其他替换时（例如，更改＆＃34;开始＆＃34;到＆＃34;开始＆＃34;，它会将该特殊字符更改为一系列奇怪的？那个＆＃39; re盒子里包围着。

任何帮助都将非常感谢！

编辑：我这样读了我的文字：

df <- read_delim("file.txt", "\n", escape_double = F, col_names = F, trim_ws = T)

它有2列;第一个是发言人，第二个是评论。

Answer 1

此代码有效：gsub（“[^ 0-9A-Za-z ///']”，“”，a）