哪个是最好的HTML整洁包? HTML agility pack中是否有任何选项可以使HTML网页整洁?

时间:2010-03-22 08:24:25

标签: c# winforms html-parsing html-agility-pack htmltidy

我正在使用 html敏捷包来解析html 表格信息。现在有一些html内容缺少结束标记,并且由于缺少结束标记而从这样的页面html敏捷包没有正确解析信息。所以我想插入结束标记,其中有缺少结束标记所以html敏捷包正确解析信息。所以要插入缺少的结尾标记我该怎么办?我应该为此编写自己的代码还是使用 html tidy pack 来做到这一点?

如果html tidy pack然后哪个是最好的 html整洁包,如果可能的话,如何使用它的任何示例?如果我的自己的代码而不是它的样子呢?

html敏捷包中是否有任何选项,这可以让我们首先使html页面整洁,然后解析该网页。

2 个答案:

答案 0 :(得分:7)

在Html Agility Pack中我找不到任何使html页面整洁的选项。有一个选项可以插入缺少的结束标记,但它只适用于某些html页面.Html敏捷包中的选项是,

  HtmlAgilityPack.HtmlDocument doc = new HtmlAgilityPack.HtmlDocument();
      doc.OptionFixNestedTags=true;

我也尝试过regex,但它也适用于某些html页面。

所以我发现最好的html整洁包是:

http://www.devx.com/dotnet/Article/20505/1763/page/2.

我们可以看到:如何导入dll以及如何使用整齐的包,还提供了示例代码。它很棒。它可以插入缺少结束标记并使您的 html页面整洁。

感谢您帮助所有人..

答案 1 :(得分:0)

我发现 HTML整洁www.html-tidy.org)是整理和清理HTML的最佳选择。

不同的二进制文件在这里-> http://binaries.html-tidy.org

此外,还有许多语言的HTML Tidy包装器。我使用一个名为TidyHtml5ManagedRepack的C#。

我特别需要清理格式不正确的HTML,并将其与通过不同浏览器中的javascript进行调整的相同或相似HTML进行比较。 HTML Tidy使我可以将HTML清理到正常/规范化的状态,因此我可以将其与其他浏览器调整过的相同HTML进行比较,以确信它很有可能是相同的。