我有一个包含大量标签的大型xhtml文档。我观察到一些未闭合的开头段落标签不必要地重复,我想删除它们或用空格替换它们。 我只想编码识别未封闭的段落标签并删除它们。
这是一个显示我的意思的小样本:
<p><strong>Company Registration No.1</strong> </p>
<p><strong>Company Registration No.2</strong></p>
<p> <!-- extra tag -->
<p> <!-- extra tag -->
<hr/>
<p><strong> HALL WOOD (LEEDS) LIMITED</strong><br/></p>
<p><strong>REPORT AND FINANCIAL STATEMENTS </strong></p>
有人可以给我控制台应用程序的代码,只是删除这些未公开的段落标记。
答案 0 :(得分:3)
这应该有效:
public static class XHTMLCleanerUpperThingy
{
private const string p = "<p>";
private const string closingp = "</p>";
public static string CleanUpXHTML(string xhtml)
{
StringBuilder builder = new StringBuilder(xhtml);
for (int idx = 0; idx < xhtml.Length; idx++)
{
int current;
if ((current = xhtml.IndexOf(p, idx)) != -1)
{
int idxofnext = xhtml.IndexOf(p, current + p.Length);
int idxofclose = xhtml.IndexOf(closingp, current);
// if there is a next <p> tag
if (idxofnext > 0)
{
// if the next closing tag is farther than the next <p> tag
if (idxofnext < idxofclose)
{
for (int j = 0; j < p.Length; j++)
{
builder[current + j] = ' ';
}
}
}
// if there is not a final closing tag
else if (idxofclose < 0)
{
for (int j = 0; j < p.Length; j++)
{
builder[current + j] = ' ';
}
}
}
}
return builder.ToString();
}
}
我已经使用您的示例示例对其进行了测试,但它确实有效......虽然这对算法来说是一个糟糕的公式,但它应该为您提供一个起点!
答案 1 :(得分:2)
你必须找出,创建了什么样的DOM树。它可能被解释为
<p><strong>Company Registration No.1</strong> </p>
<p><strong>Company Registration No.2</strong></p>
<p> <!-- extra tag -->
<p> <!-- extra tag -->
<hr/>
<p><strong> HALL WOOD (LEEDS) LIMITED</strong><br/></p>
<p><strong>REPORT AND FINANCIAL STATEMENTS </strong></p>
</p>
</p>
或
<p><strong>Company Registration No.1</strong> </p>
<p><strong>Company Registration No.2</strong></p>
<p></p> <!-- extra tag -->
<p></p> <!-- extra tag -->
<hr/>
<p><strong> HALL WOOD (LEEDS) LIMITED</strong><br/></p>
<p><strong>REPORT AND FINANCIAL STATEMENTS </strong></p>
您可以尝试查找嵌套的p-tag并将内部内容移动到外部p-tag并删除留空的内部p-tag。无论如何,我相信你需要先分析DOM树。