使用c#删除重复的html span元素

时间:2016-07-07 21:29:03

标签: c# html html-agility-pack anglesharp

我必须将单词转换为html,我正在使用Aspose,并且运行良好。问题在于它产生了一些冗余元素,我认为这是由于文本存储在单词中的方式。

例如,在我的Word文档中,出现以下文字:

发布授权

转换为html后,它变为:

$index

我使用C#并想要一种删除冗余span元素的方法。我认为AngleSharp或html-agility-pack应该能够做到这一点,但我不确定这是最好的方法吗?

1 个答案:

答案 0 :(得分:1)

我最后做的是迭代所有元素,当检测到相邻的span元素时,我将文本连接在一起。如果其他人遇到此问题,这里有一些代码。注意代码可以使用一些清理。

--config:servers.default.port=8080