使用HtmlTidy管理的html片段

时间:2014-03-27 10:28:35

标签: html htmltidy html-validation html-parser

我在.net

中使用这个HtmlTidy的库包装器

https://github.com/markbeaton/TidyManaged

它有一个简单的例子:

using System;
using TidyManaged;

public class Test
{
 public static void Main(string[] args)
 {
   using (Document doc = Document.FromString("<hTml><title>test</tootle>     <body>asd</body>"))
   {
  doc.ShowWarnings = false;
  doc.Quiet = true;
  doc.OutputXhtml = true;
  doc.CleanAndRepair();
  string parsed = doc.Save();
  Console.WriteLine(parsed);
  }
 }
}

我想将这个库用于一段HTML而不是整页   &#34; HTML&#34;和&#34;身体&#34;标签 有可能吗?

我基本上想要验证开始和结束标签等。 并删除没有匹配开口的标签,任何其他伟大的工具都会很好。

2 个答案:

答案 0 :(得分:0)

我过去在Tidy .Net上取得了不错的成绩

http://sourceforge.net/projects/tidynet/

答案 1 :(得分:0)

我通过使用:

找到了答案
 doc.OutputBodyOnly = AutoBool.Yes;

但结果我得到了gibrish字符而不是UTF-8(我使用希伯来字符) 并发现它是一个3岁的漏洞.... https://github.com/markbeaton/TidyManaged/issues/2 这并没有解决问题:     doc.InputCharacterEncoding = TidyManaged.EncodingType.Utf8;     doc.OutputCharacterEncoding = TidyManaged.EncodingType.Utf8;

@Oscar我会检查你的推荐,谢谢