我正在使用HtmlAgilityPack格式化文本文件的html。 &LT峰; br>节点被替换为' \ r \ n'所以它在文本文件中保持格式化。我希望删除第一个实际char之前的所有分隔线,但我的代码不会这样做。测试的最终输出应为:
原件:
你好
检查
预期:
你好
检查
html = "<br><br><br>Hello<br>Check";
HtmlDocument doc = new HtmlDocument();
doc.LoadHtml(html);
var nodes = doc.DocumentNode.SelectNodes("//br");
if (nodes != null)
{
foreach(var node in nodes)
{
node.ParentNode.ReplaceChild(doc.CreateTextNode("\r\n"), node);
}
}
html = doc.Documentode.InnerText.TrimStart('r','n');
OutputLog.WriteLine("trimmed: " + html);
答案 0 :(得分:0)
我希望删除第一个实际char之前的所有分隔线 但我的代码不会这样做。
您可以使用Regex轻松完成此操作。
df.registerTempTable("df")
sqlContext.sql("SELECT a, b, COUNT(1) AS cnt FROM df GROUP BY a, b")
然后您可以根据需要处理您的HTML。