Question

我在XML文件中有一些数据，而且我得到了一个“Error: 1: xmlParseEntityRef: no name”。我把它缩小到一些带有“＆amp;”的XML文件或“＆lt;”或“＆gt;”在数据中。例如，有一个xml是：

...<instruc>count the number of words & letters</instruc>...
...<instruc>if the number of letters per word > 6</instruc>...

我一直在使用XML包和xmlParse。有什么方法可以在这个文件中读到并将“坏”字符视为文本吗？

谢谢！

Answer 1

感谢XML包的作者Duncan Lang：

1）使用xmlParseDoc()。这将解析XML并删除“坏”＆＃39;字符。

2）使用htmlParse()。生成的文档将包含与违规&对应的& 但该文档还将包含<html>和<body>节点以及真实文档将是<body>节点的子节点。

这不需要更改符号，但不会通过以纯文本形式读取的文件上的gsub()来阻止更新xml文件。