如何在不使用HTMLAgilityPack的情况下从HTML中删除重复的属性?

时间:2013-10-23 15:30:20

标签: c# html tags

我有像

这样的HTML
    ...<button type="submit" name="ctl00$ctl16$ctl00$ctl00$searchButton" value=""
 id="ctl00_ctl16_ctl00_ctl00_searchButton" type="submit" class="search-submit" value="Search">...

并且需要程序化删除重复的标签,例如类型=&#34;提交&#34;从中。是否可以不使用像HTMLAgilityPack这样的libriaries?例如Regexp。

1 个答案:

答案 0 :(得分:0)

假设您要尝试删除同一标签中的重复属性 ,那么这很棘手,因为您必须先解析每个标签才能做到这一点。解析每个标签需要解析其他所有内容,包括注释,文本,带引号的文本等。

因此,无需使用库即可执行此操作的唯一方法是基本上编写自己的HTML解析器。这就是使用HTML Agility Pack或我自己的HTML Monkey的原因。