在HTML文档中标记值以进行自动提取

时间:2015-06-22 14:25:12

标签: html xml html5

我们有一系列文档正在转换为HTML以供Web访问。这些文档是操作说明,列出了人们必须执行的操作以及不同的要求。我们想在每个需求周围添加一个标记,以便可以使用一些代码自动提取它。我采取的方法是用评论附上每个要求:<!-- Requirement Start --> THE REQUIREMENT HERE <!-- Requirement End -->

我创建了一个解析文档并从文档中获取所有需求的例程。我的一位用户说我应该使用XML标记并创建像<requirement> THE REQUIREMENT HERE </requirement>这样的标记。

我不确定什么是正确的方法。对我而言,驱动因素是在浏览器窗口中查看屏幕时隐藏了实际标签(而不是打开/关闭标签之间的内容)。

2 个答案:

答案 0 :(得分:0)

如果您将它们用作元文档并将它们发送到解析器,然后转换为HTML,只要转换后的HTML没有任何不相关的标记,就可以了!所以,如果以下代码:

<requirement> THE REQUIREMENT HERE </requirement>

转换为类似:

<!-- Requirement Start -->
  HTML OF THE REQUIREMENT HERE
<!-- Requirement End -->

使用自定义标签是安全的,因为它们始终在XML中有效。

答案 1 :(得分:0)

你应该没事,但我建议你做一些与你的评论标签不同的东西。考虑一下您的解析器将如何知道此注释标记实际上是注释还是标记指令。您可能想要提出一个在实际评论中不太可能出现的短字符序列,例如:

<!-- $!requirement$! -->

这样,您只需解析前几个字符即可。如果它们不是$!,那么你知道这只是一个留在文件中的普通注释,你应该忽略它;如果它们是$!,那么您需要将它们转换为标记。