从'XML'包中使用htmlParse()时,防止添加第一行

时间:2015-08-09 15:48:44

标签: html xml r xml-parsing

在对XHTML文档执行htmlParse()时遇到问题。

当它作为'externalptr'加载到R中时,我可以看到在文件顶部添加了一行:

<!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.0 Transitional//EN" "http://www.w3.org/TR/REC-html40/loose.dtd">

我不想让这一行显示,因为它会破坏我的应用程序。我想在htmlParse()函数中删除它,而不必为每个XHTML手动删除此行。

有什么建议吗?我已经尝试更改传递给函数htmlParse()的一些参数,但此时,在尝试使用它之后,我还没有找到它。

如果有帮助,以下是我解析的XHTML的第一行:

<?xml version="1.0" encoding="utf-8" ?>
<html dir="ltr" xmlns="http://www.w3.org/1999/xhtml" xmlns:epub="http://www.idpf.org/2007/ops" xml:lang="es">
<head>
<meta charset="utf-8" />

1 个答案:

答案 0 :(得分:0)

我尝试使用xmlRoot(),然后使用saveXML()保存,包括作为参数的前缀<?xml version="1.0" encoding="utf-8" ?>

还有一个编码问题,但这是另一个故事。在Windows中没有用,在Ubuntu终于工作了。

谢谢大家。