Question

我有一个从字节数组创建的XDocument（通过tcp / ip接收）。

然后我搜索特定的xml节点（XElements），并在通过调用XElement.Remove（）从Xdocument中检索值'pop'之后。在我的所有解析完成后，我希望能够记录我没有解析的xml（XDocument中的剩余xml）。问题是在调用XElement.Remove（）时会留下额外的空格。我想知道删除这些额外空格的最佳方法，同时保留剩余xml中剩余的格式。

示例/示例代码

如果我在套接字上收到以下xml：

<?xml version="1.0"?>
<catalog>
   <book id="bk101">
      <author>Gambardella, Matthew</author>
      <title>XML Developer's Guide</title>
      <genre>Computer</genre>
      <price>44.95</price>
      <publish_date>2000-10-01</publish_date>
      <description>An in-depth look at creating applications with XML.</description>
   </book>
</catalog>

我使用以下代码来解析这个xml并删除一些XElements：

private void socket_messageReceived(object sender, MessageReceivedEventArgs e)
{
     XDocument xDoc;
     try
     {
         using (MemoryStream xmlStream = new MemoryStream(e.XmlAsBytes))
         using (XmlTextReader reader = new XmlTextReader(xmlStream))
         {
             xDoc = XDocument.Load(reader);
         }

         XElement Author = xDoc.Root.Descendants("author").FirstOrDefault();
         XElement Title  = xDoc.Root.Descendants("title").FirstOrDefault();
         XElement Genre  = xDoc.Root.Descendants("genre").FirstOrDefault();

         // Do something with Author, Title, and Genre here...

         if (Author != null) Author.Remove();
         if (Title  != null) Title.Remove();
         if (Genre  != null) Genre.Remove();

         LogUnparsedXML(xDoc.ToString());

     }
     catch (Exception ex)
     {
         // Exception Handling here...
     }
}

然后发送到LogUnparsedXML消息的结果xml字符串将是：

<?xml version="1.0"?>
<catalog>
   <book id="bk101">



      <price>44.95</price>
      <publish_date>2000-10-01</publish_date>
      <description>An in-depth look at creating applications with XML.</description>
   </book>
</catalog>

在这个人为的例子中，这似乎不是什么大不了的事，但在我的实际应用中，剩下的xml看起来很邋。。我尝试使用XDocument.ToString重载，使SaveOptions枚举无效。我还尝试使用SaveOptions枚举调用xDoc.Save保存到文件。我尝试尝试使用XElement.Nodes().OfType<XText>()尝试删除空格的几个不同的linq查询，但我常常把我希望保留的空白与我想要删除的空白一起取出。

提前感谢您的帮助。

乔

Answer 1

以便携方式回答并不容易，因为解决方案在很大程度上取决于XDocument.Load()如何生成空白文本节点（并且有几种LINQ to XML实现可能不同意这些细微的细节）。 / p>

也就是说，您似乎永远不会从<description>元素中删除 last 子（<book>）。如果确实如此，那么我们不必担心父元素的结束标记的缩进，我们可以删除元素及其所有后续文本节点，直到我们到达另一个元素。 TakeWhile()将完成这项工作。

编辑：嗯，好像你需要删除最后一个孩子。因此，事情会变得更加复杂。下面的代码实现了以下算法：

如果元素不是其父元素的最后一个元素：

删除所有后续文本节点，直到我们到达下一个元素。



否则：

删除所有后续文本节点，直到找到包含换行符的文本节点

如果该节点仅包含换行符：

删除该节点。



否则：

创建一个仅包含换行符后面找到的空格的新节点

在原始节点之后插入该节点

删除原始节点。





删除元素本身。

结果代码是：

public static void RemoveWithNextWhitespace(this XElement element)
{
    IEnumerable<XText> textNodes
        = element.NodesAfterSelf()
                 .TakeWhile(node => node is XText).Cast<XText>();
    if (element.ElementsAfterSelf().Any()) {
        // Easy case, remove following text nodes.
        textNodes.ToList().ForEach(node => node.Remove());
    } else {
        // Remove trailing whitespace.
        textNodes.TakeWhile(text => !text.Value.Contains("\n"))
                 .ToList().ForEach(text => text.Remove());
        // Fetch text node containing newline, if any.
        XText newLineTextNode
            = element.NodesAfterSelf().OfType<XText>().FirstOrDefault();
        if (newLineTextNode != null) {
            string value = newLineTextNode.Value;
            if (value.Length > 1) {
                // Composite text node, trim until newline (inclusive).
                newLineTextNode.AddAfterSelf(
                    new XText(value.SubString(value.IndexOf('\n') + 1)));
            }
            // Remove original node.
            newLineTextNode.Remove();
        }
    }
    element.Remove();
}

从那里，您可以：

if (Author != null) Author.RemoveWithNextWhitespace();
if (Title  != null) Title.RemoveWithNextWhitespace();
if (Genre  != null) Genre.RemoveWithNextWhitespace();

虽然我建议您将上面的内容替换为从数组或params方法调用中提供的循环，以避免代码冗余。

Answer 2

我的解决方案比适用于我的情况并且似乎也适用于您的情况的答案简单。我不确定，也许有一些更复杂的情况无法解决。

代码如下：

public static void RemoveWithNextWhitespace(this XElement element)
{
    if (element.PreviousNode is XText textNode)
    {
        textNode.Remove();
    }

    element
    .Remove();
}

这是我关于您的用例的LINQPad查询：

void Main()
{
    var xDoc = XDocument.Parse(@"<?xml version=""1.0""?>
<catalog>
   <book id=""bk101"">
      <author>Gambardella, Matthew</author>
      <title>XML Developer's Guide</title>
      <genre>Computer</genre>
      <price>44.95</price>
      <publish_date>2000-10-01</publish_date>
      <description>An in-depth look at creating applications with XML.</description>
   </book>
</catalog>", LoadOptions.PreserveWhitespace);

    XElement Author = xDoc.Root.Descendants("author").FirstOrDefault();
    XElement Title = xDoc.Root.Descendants("title").FirstOrDefault();
    XElement Genre = xDoc.Root.Descendants("genre").FirstOrDefault();

    // Do something with Author, Title, and Genre here...

    if (Author != null) Author.RemoveWithNextWhitespace();
    if (Title != null) Title.RemoveWithNextWhitespace();
    if (Genre != null) Genre.RemoveWithNextWhitespace();

    xDoc.ToString().Dump();
}

static class Ext
{
    public static void RemoveWithNextWhitespace(this XElement element)
    {
        if (element.PreviousNode is XText textNode)
        {
            textNode.Remove();
        }

        element
        .Remove();
    }
}

我自己不只是使用接受的答案的主要原因是，在某些情况下，它没有使我的XML格式正确。例如在您的用例中，如果我删除了“ description”元素，则会留下如下所示的内容：

<catalog>
   <book id="bk101">
      <genre>Computer</genre>
      <price>44.95</price>
      <publish_date>2000-10-01</publish_date>
         </book>
</catalog>

Answer 3

默认情况下，通过XmlReader读取xml将保留空白，如此处所见，包括无关紧要的空白。

您应该通过设置适当的xml阅读器设置来忽略空格来阅读它：

using (var reader = XmlReader.Create(xmlStream, new XmlReaderSettings { IgnoreWhitespace = true }))

请注意，这不会删除大量的空白（例如混合内容中或保留范围的空白），因此您的格式将保持不变。

Linq-to-XML XElement.Remove（）会留下不需要的空格

3 个答案: