如何查找包含无效HTML标记的字符串并将其替换为有效标记

时间:2019-04-18 06:02:02

标签: c#

我有一个字符串,其中包含具有无效标签格式的html标签列表。

例如,我有一个如下字符串:

<p>
  <strong>Scale:</strong>
</p>
<p>
  <ul style="list-style-type:disc" class="pl-2">

  <li>2 to 4 nodes</li>
  </ul>
</p>
<p>
  <strong>Single Node Data:</strong>
</p>
<p>
  <ul style="list-style-type:disc" class="pl-2">
  <li>CPU: 6-26 cores (Intel)</li> 
  <li>RAM: 128GB to 2TB</li>
  <li>Raw storage: 240GB to 16TB</li>
  <li>Storage type: SSD + HDD</li>
  <li>Network speed: Up to 25Gb</li>
  </ul>
</p><img src="xxxxx"/>

我需要将以/>结尾的标签替换为</img>,以便将<img src="xxxxx"/>替换为<img src="xxxxx"></img>

我如何使用C#实现这一目标?

1 个答案:

答案 0 :(得分:0)

对于您要问的问题,可以使用以下任一选项

选项1

您可以使用第3方库,该库将HTML解析为标签(实际上将其呈现为XML),并在字符串数组/列表中将每个标签(及其内容)分开

然后循环遍历该列表,并检查结束标记是否正确,如果没有用正确的结束标记代替

这里是library

选项2

您可以创建自己的html解析器,这将使您对解析器的逻辑有更多的控制,我发现CodeProject上的C#HTML解析器示例可以将其检出。