R封装XML中的编码问题

时间:2018-09-28 12:45:00

标签: r encoding utf-8

我正在将XML文件读入R,但是我在utf8编码问题和一些HTML标记方面苦苦挣扎。这是一个最小的XML文件:

Function calls are not supported in decorators

我想将XML文件读入R中的列表结构。因此,我使用了XML包中的xmlToList函数。这是我的脚本,用于读取保存在xmlPath中的文件。

<?xml version="1.0" encoding="UTF-8"?>
    <CV id="Z1" lang="de">
        <variable label="ür">xxx</variable>
        <value label="x">text → x</value>
    </CV>

问题是,如您在此处看到的那样,德语变音符号“ü”显示不正确:

library(XML)
xml.str =  XML::xmlInternalTreeParse(xmlPath,  encoding="UTF-8")
res = XML::xmlToList(xml.str)

下一个问题是HTML标记。它们已正确打印到Rstudio中的控制台:

p1 = res$variable$.attrs["label"] # problem 1
p1

> label 
> "ür"

但是在导出到csv时,它另存为

p2 = res$value$text # problem 2
p2

> [1] "text → x"

因此,我想删除<和>之间的HTML标记,但是我无法在R中访问它们。

我们将不胜感激:)

0 个答案:

没有答案