我正处于一个项目中,让我从页面抓取HTML,以XML格式存储数据,然后从中获取特定标记之间的数据并将其导出到电子邮件文件。
我一直在通过互联网和stackexchange进行研究,以了解尝试完成此任务的基础知识。但是,我猜这可能不像只需几行代码就可以将HTML写入XML。我不是在寻找直接代码,而是寻找一个正确的方向。
答案 0 :(得分:1)
他们有点不同。 HTML是一种用于显示网站的标记语言,传统上是xml和样式表的组合。如果要转换为xml,您应该使用刮刀查找从html页面提取相关数据,然后将结构化数据导出到xml。有许多种语言的抓取工具,包括一些gui工具。
答案 1 :(得分:1)
HTML并不总是有效的XML。 XHTML应该是有效的XML,但在野外您会看到许多网站没有正确遵循标准(但仍然在浏览器中正确呈现),例如使用未关闭的<br>
标记。你还会看到相当数量的HTML 4.x和更低级别的网站,这几乎肯定会像XML一样无效。
您可能需要的是HTML解析库。根据您使用的平台,有几种。其中许多将支持DOM解析和HTML文档的操作,并允许您提取所需的数据。然后,您可以将该数据写入有效的XML文件或任何其他目标。
过去我使用过HTML Agility Pack用于.NET和Beautiful Soup用于Python;两者都运作良好。如果您正在使用其他平台,可能还有一个库可以执行类似的操作,但我们需要知道您想要的平台。
由于您是在JavaScript中执行此操作,因此您可能希望使用jQuery或Angular.JS进行DOM操作和解析,这两者都是DOM访问和操作的广泛支持和记录的选项。
如果您在Node.JS中进行此操作,还有其他库,例如jsdom和cheerio