我在.net
中使用这个HtmlTidy的库包装器https://github.com/markbeaton/TidyManaged
它有一个简单的例子:
using System;
using TidyManaged;
public class Test
{
public static void Main(string[] args)
{
using (Document doc = Document.FromString("<hTml><title>test</tootle> <body>asd</body>"))
{
doc.ShowWarnings = false;
doc.Quiet = true;
doc.OutputXhtml = true;
doc.CleanAndRepair();
string parsed = doc.Save();
Console.WriteLine(parsed);
}
}
}
我想将这个库用于一段HTML而不是整页 &#34; HTML&#34;和&#34;身体&#34;标签 有可能吗?
我基本上想要验证开始和结束标签等。 并删除没有匹配开口的标签,任何其他伟大的工具都会很好。
答案 0 :(得分:0)
我过去在Tidy .Net上取得了不错的成绩
答案 1 :(得分:0)
我通过使用:
找到了答案 doc.OutputBodyOnly = AutoBool.Yes;
但结果我得到了gibrish字符而不是UTF-8(我使用希伯来字符) 并发现它是一个3岁的漏洞.... https://github.com/markbeaton/TidyManaged/issues/2 这并没有解决问题: doc.InputCharacterEncoding = TidyManaged.EncodingType.Utf8; doc.OutputCharacterEncoding = TidyManaged.EncodingType.Utf8;
@Oscar我会检查你的推荐,谢谢