删除字符串开头的Breaklines

时间:2015-10-28 14:47:46

标签: c# html-agility-pack

我正在使用HtmlAgilityPack格式化文本文件的html。 &LT峰; br>节点被替换为' \ r \ n'所以它在文本文件中保持格式化。我希望删除第一个实际char之前的所有分隔线,但我的代码不会这样做。测试的最终输出应为:

原件

你好
检查

预期:
你好
检查

html = "<br><br><br>Hello<br>Check";
HtmlDocument doc = new HtmlDocument();
doc.LoadHtml(html);

var nodes = doc.DocumentNode.SelectNodes("//br");
if (nodes != null)
{
    foreach(var node in nodes)
    {
        node.ParentNode.ReplaceChild(doc.CreateTextNode("\r\n"), node);
    }
}

html = doc.Documentode.InnerText.TrimStart('r','n');
OutputLog.WriteLine("trimmed: " + html);

1 个答案:

答案 0 :(得分:0)

  

我希望删除第一个实际char之前的所有分隔线   但我的代码不会这样做。

您可以使用Regex轻松完成此操作。

df.registerTempTable("df")

sqlContext.sql("SELECT a, b, COUNT(1) AS cnt FROM df GROUP BY a, b")

然后您可以根据需要处理您的HTML。