我正在将XML文件读入R,但是我在utf8编码问题和一些HTML标记方面苦苦挣扎。这是一个最小的XML文件:
Function calls are not supported in decorators
我想将XML文件读入R中的列表结构。因此,我使用了XML包中的xmlToList函数。这是我的脚本,用于读取保存在xmlPath中的文件。
<?xml version="1.0" encoding="UTF-8"?>
<CV id="Z1" lang="de">
<variable label="ür">xxx</variable>
<value label="x">text → x</value>
</CV>
问题是,如您在此处看到的那样,德语变音符号“ü”显示不正确:
library(XML)
xml.str = XML::xmlInternalTreeParse(xmlPath, encoding="UTF-8")
res = XML::xmlToList(xml.str)
下一个问题是HTML标记。它们已正确打印到Rstudio中的控制台:
p1 = res$variable$.attrs["label"] # problem 1
p1
> label
> "ür"
但是在导出到csv时,它另存为
p2 = res$value$text # problem 2
p2
> [1] "text → x"
因此,我想删除<和>之间的HTML标记,但是我无法在R中访问它们。
我们将不胜感激:)