应用错误收集

时间：2015-03-16 15:35:57

标签： html xml xml-parsing

我正处于一个项目中，让我从页面抓取HTML，以XML格式存储数据，然后从中获取特定标记之间的数据并将其导出到电子邮件文件。

我一直在通过互联网和stackexchange进行研究，以了解尝试完成此任务的基础知识。但是，我猜这可能不像只需几行代码就可以将HTML写入XML。我不是在寻找直接代码，而是寻找一个正确的方向。

答案 0 :(得分：1)

他们有点不同。 HTML是一种用于显示网站的标记语言，传统上是xml和样式表的组合。如果要转换为xml，您应该使用刮刀查找从html页面提取相关数据，然后将结构化数据导出到xml。有许多种语言的抓取工具，包括一些gui工具。

答案 1 :(得分：1)

HTML并不总是有效的XML。 XHTML应该是有效的XML，但在野外您会看到许多网站没有正确遵循标准（但仍然在浏览器中正确呈现），例如使用未关闭的<br>标记。你还会看到相当数量的HTML 4.x和更低级别的网站，这几乎肯定会像XML一样无效。

您可能需要的是HTML解析库。根据您使用的平台，有几种。其中许多将支持DOM解析和HTML文档的操作，并允许您提取所需的数据。然后，您可以将该数据写入有效的XML文件或任何其他目标。

过去我使用过HTML Agility Pack用于.NET和Beautiful Soup用于Python;两者都运作良好。如果您正在使用其他平台，可能还有一个库可以执行类似的操作，但我们需要知道您想要的平台。

由于您是在JavaScript中执行此操作，因此您可能希望使用jQuery或Angular.JS进行DOM操作和解析，这两者都是DOM访问和操作的广泛支持和记录的选项。

如果您在Node.JS中进行此操作，还有其他库，例如jsdom和cheerio