有没有办法从文本文件中读取文本并将Latin-4(ISO / IEC 8859-4)或Latin-6(ISO / IEC 8859-10)字符转换为对应的HTML代码(和反之亦然)在R和RStudio中,例如ą
到&261;
?
我特别感兴趣的是对这些符号进行编码解码:ĄąČčĘęĖėĮįŠšŲųŲųŪžž。 我打算为这个任务使用正则表达式,但第一个问题是我的RStudio甚至没有正确读取符号:
c("Ąą Čč Ęę Ėė Įį Šš Ųų Ūū Žž")
结果是:
[1] "Aa Cc Ee Ee Ii Uu Uu ˇ˛"