是否有一个.NET实用程序可以获取HTML代码段(而不是整个文档)并输出兼容的标准HTML等效项?
IE,<b>die Bundesliga Mannschaften</b>
和<span style="font-weight:bold">die Bundesliga Mannschaften</span>
都解决了同样的问题。
我不是要修复任何东西,只是标准化一些结构良好但虽然过时的描述文本,以便最终输出具有一种格式。
由于
答案 0 :(得分:1)
我知道.Net中没有任何HTML规范化工具,但是,一个好的起点是Tidy(或fork of the original)。此时,您有机会将.Net中的HTML解释为DOM文档,然后可以根据您提出的规则转换各种部分。如果您获得XHTML,您的工作可能会轻松得多,只需要一个CSS解释器来处理样式属性作为规范化代码的一部分。
或者,您可以将HtmlCleaner从Java移植到.Net。
答案 1 :(得分:1)
请注意,两者您提供的字符串都是有效的,符合标准的HTML。你可能想要的是将等效的表示标记转换为规范格式。我不知道一个自动执行此操作的工具,但您可以使用XSLT来解决它。
编辑:sixlettervariables指出你无法在XSLT中解析CSS。因此,诀窍是将<b>
转换为<span style="font-weight:bold">
而不是相反: - )
答案 2 :(得分:0)
我想我在Microsoft.mshtml命名空间中找到了我需要的东西。