自动HTML标准化?

时间:2009-07-07 15:13:05

标签: .net html

是否有一个.NET实用程序可以获取HTML代码段(而不是整个文档)并输出兼容的标准HTML等效项?

IE,<b>die Bundesliga Mannschaften</b><span style="font-weight:bold">die Bundesliga Mannschaften</span>都解决了同样的问题。

我不是要修复任何东西,只是标准化一些结构良好但虽然过时的描述文本,以便最终输出具有一种格式。

由于

3 个答案:

答案 0 :(得分:1)

我知道.Net中没有任何HTML规范化工具,但是,一个好的起点是Tidy(或fork of the original)。此时,您有机会将.Net中的HTML解释为DOM文档,然后可以根据您提出的规则转换各种部分。如果您获得XHTML,您的工作可能会轻松得多,只需要一个CSS解释器来处理样式属性作为规范化代码的一部分。

或者,您可以将HtmlCleaner从Java移植到.Net。

答案 1 :(得分:1)

请注意,两者您提供的字符串都是有效的,符合标准的HTML。你可能想要的是将等效的表示标记转换为规范格式。我不知道一个自动执行此操作的工具,但您可以使用XSLT来解决它。

编辑:sixlettervariables指出你无法在XSLT中解析CSS。因此,诀窍是将<b>转换为<span style="font-weight:bold">而不是相反: - )

答案 2 :(得分:0)

我想我在Microsoft.mshtml命名空间中找到了我需要的东西。