在C#中合并两个XML文件,其中一个是不符合的

时间:2011-04-04 15:36:31

标签: c# .net xml dataset

我有两个XML文件需要合并到一个文件中。当我尝试合并它们时,我得到一个错误,说其中一个不符合。

违规的XML文件类似于:

<letter>
    <to>
        <participant>
            <name>Joe Bethersonton</name>
            <PostalAddress>Apartment 23R, 11454 Pruter Street</PostalAddress>
            <Town>Fargo, North Dakota, USA</Town>
            <ZipCode>50504</ZipCode>
        </participant>
    </to>
    <from>
        <participant>
            <name>Jon Doe</name>
            <PostalAddress>52 Generic Street</PostalAddress>
            <Town>Romford, Essex, UK</Town>
            <ZipCode>RM11 2TH</ZipCode>
        </participant>
    </from>
</letter>

我正在尝试使用以下代码段合并这两个文件:

try
{
    Dataset ds = new DataSet();
    Dataset ds2 = new DataSet();
    XmlTextReader reader1 = new XmlTextReader("C:\\File1.xml");
    XmlTextReader reader2 = new XmlTextReader("C:\\File2.xml");
    ds.ReadXml(reader1);
    ds2.ReadXml(reader2);
    ds.Merge(ds2);
}
catch(System.Exception ex)
{
    Console.WriteLine(ex.Message);
}

这会出现以下错误:

同一个表'参与者'不能是两个嵌套关系中的子表。

这两个XML文件都以UTF-16编码,这使得它们通过简单的文本读写很难组合。

我所需的最终结果是一个XML文件,其中第一个XML文件的内容后跟第二个XML文件的内容,整个批次周围有一个标记,顶部有一个标题。

有什么想法吗?

谢谢, 瑞克

3 个答案:

答案 0 :(得分:6)

在我看来,你提供的XML就好了。我建议您使用以下代码,并且根本不使用数据集类:

XDocument doc1 = XDocument.Load("C:\\File1.xml");
XDocument doc2 = XDocument.Load("C:\\File2.xml");
var result = new XDocument(new XElement("Root", doc1.Root, doc2.Root));

result将包含一个XML文档,其中“Root”作为根标记,然后是文件1的内容,后跟文件2的内容。

<强>更新
如果您需要使用XmlDocument,则可以使用以下代码:

XmlDocument doc1 = new XmlDocument();
XmlDocument doc2 = new XmlDocument();
doc1.Load("C:\\File1.xml");
doc2.Load("C:\\File2.xml");
XmlDocument result = new XmlDocument();
result.AppendChild(result.CreateElement("Root"));
result.DocumentElement.AppendChild(result.ImportNode(doc1.DocumentElement, true));
result.DocumentElement.AppendChild(result.ImportNode(doc2.DocumentElement, true));

答案 1 :(得分:4)

我怀疑解决方案是提供架构。 DataSet.Merge不知道如何处理两组具有相同名称的元素。它试图推断一个模式,但这在这里效果不好。

根据this thread on MSDN,这是DataSet类的限制:

  

.NET 2.0中的DataSet类(Visual Studio 2005)仍然具有不支持具有相同名称的不同嵌套表的限制。因此,在将XML(和模式)加载到DataSet之前,必须引入XML转换来预处理XML。

当然,措辞的方式使它似乎像一个更新的版本可能已经解决了这个问题。不幸的是,情况可能并非如此,因为最初的答案是在2005年发布的。

This knowledge base article似乎表明这种行为是“按设计”的,虽然情况略有不同。

this thread

还提供了更好地解释为什么会出现这种情况的原因
  

当ADO将XML读入DataSet时,它会创建DataTables以包含它遇到的每种类型的元素。每个表都由其名称唯一标识。您不能有两个名为“PayList”的不同表。

     

此外,给定的表可以包含任意数量的父表,但只能嵌套其中一个父关系 - 否则,给定的记录将多次写入XML,作为其每个父行的子项

     

DataSet的ReadXml方法在读取其输入时可以推断出DataSet的架构,这非常方便,但如果XML可读,则必须符合某些约束。你得到的XML没有。所以你有两个选择:你可以改变XML,或者你可以编写自己的方法来填充DataSet。

     

如果是我,我会写一个XSLT转换,它接受输入XML并将PayList元素转换为MatrixPayList或NonMatrixPaylist元素。然后我将其输出传递给DataSet。

使用XmlDocumentXDocument读入和操作XML文件是另一种可能的解决方法。有关示例,请参阅Merging two xml files LINQ

答案 2 :(得分:0)

我找到了一个使用Serialization来首先推断架构的解决方案, 然后序列化模式并删除关系约束(这会让DataSet误以为IT已经创建了数据集。),然后将这个新模式加载到DataSet中。

这个新数据集将能够加载您的xml文件。 这个技巧背后的更多细节: Serialization Issue when using WriteXML method