Question

我正在从包含这样的行的法国水文数据库中解析文本文件：

Date    Q (m3/s)    Validité    F. exp. Libellé Fréquence exp

当R使用read.csv或readLines读取这些行时，重音会使用代码进行转义，以形成此行：

Date Q (m3/s) Validit\xe9 F. exp. Libell\xe9 Fr\xe9quence exp

这些转义码会阻止简单的grepl命令。例如：

grepl("Date", "Date Q (m3/s) Validit\xe9 F. exp. Libell\xe9 Fr\xe9quence exp")

产生以下结果：

[1] FALSE
Warning message:
In grepl("Date", "Date Q (m3/s) Validit\xe9 F. exp. Libell\xe9 Fr\xe9quence   exp") :
input string 1 is invalid in this locale

处理这些转义码的最佳方法是什么，以便我可以应用简单的文本处理？

Answer 1

尝试一下：

var str = document.getElementById("demo").getElementsByTagName("span")[0].innerHTML; var res = str.replace("Credit / Debit Card", "Payment"); document.getElementById("ys-cc-tablink").getElementsByTagName("span")[0].innerHTML = res;

请记住更改文件名和路径。您应该可以使用namc <- readLines(con <- file('g:/filename.txt', "r", encoding='UTF-8')) close(con) cat(namc)和grepl来清理它

如何将重音文本转换为纯文本R.

1 个答案: