如何将重音文本转换为纯文本R.

时间:2016-07-19 10:24:24

标签: r parsing text escaping

我正在从包含这样的行的法国水文数据库中解析文本文件:

Date    Q (m3/s)    Validité    F. exp. Libellé Fréquence exp

当R使用read.csvreadLines读取这些行时,重音会使用代码进行转义,以形成此行:

Date Q (m3/s) Validit\xe9 F. exp. Libell\xe9 Fr\xe9quence exp

这些转义码会阻止简单的grepl命令。例如:

grepl("Date", "Date Q (m3/s) Validit\xe9 F. exp. Libell\xe9 Fr\xe9quence exp")

产生以下结果:

[1] FALSE
Warning message:
In grepl("Date", "Date Q (m3/s) Validit\xe9 F. exp. Libell\xe9 Fr\xe9quence   exp") :
input string 1 is invalid in this locale

处理这些转义码的最佳方法是什么,以便我可以应用简单的文本处理?

1 个答案:

答案 0 :(得分:1)

尝试一下:

var str = document.getElementById("demo").getElementsByTagName("span")[0].innerHTML; var res = str.replace("Credit / Debit Card", "Payment"); document.getElementById("ys-cc-tablink").getElementsByTagName("span")[0].innerHTML = res;

请记住更改文件名和路径。您应该可以使用namc <- readLines(con <- file('g:/filename.txt', "r", encoding='UTF-8')) close(con) cat(namc) grepl来清理它