使用Linq读取XML文件

时间:2013-02-25 23:47:00

标签: c# asp.net xml linq linq-to-xml

摘要:

我知道这是一个很长的阅读。总而言之,我需要每个语言下的名称,前缀和所有值都不在documentation列中。而且我还需要存储每个标签所属的语言。

我的问题是:

读取数据并将其保留在正确的列中 - 主要是如果有空白值,它会抛弃所有内容。在上面的Excel示例中,对于空白日语标签,以下代码实际上会将gl-plt移动到label列中:

for(int t=0; t<labelLinkValues.Count; t+=labelLinkCol.Count) {

    for(int j=0; j<labelLinkCol.Count; j++) {
        if(labelLinkCol[j].Value=="prefix")
            Response.Write(labelLinkValues[t+j].Value+"<br/>");

        if(labelLinkCol[j].Value=="name")
            Response.Write(labelLinkValues[t+j].Value+"<br/>");

        for(int p=0; p<langList.Count; p++) {
            if(j>=langList[p].start&&j<=langList[p].end)
                if(labelLinkCol[j].Value!="documentation"&&labelLinkValues[j].Value!="")
                    Response.Write(langList[p].languageValue+"---"+labelLinkValues[t+j].Value+"<br/>");
        }

    }

    Response.Write("----<br>");
}

整个故事:

我正在尝试使用Linq阅读 excel导出的XML文件。我能够获取数据,但我无法使列与正确的行单元对齐。

在我发布代码之前,我应该提一些事情。此程序旨在读取任意数量的文件,它们可能包含多种语言(第二行)。在这个特定的例子中,有两种语言,但将来可能有1种语言,3种语言,例如语言定义如下:

<Row ss:AutoFitHeight="0">
    <Cell ss:StyleID="ColumnHead2" ss:Index="4" ss:MergeAcross="1">
        <ss:Data ss:Type="String">en</ss:Data>
    </Cell>

    <Cell ss:StyleID="ColumnHead2" ss:MergeAcross="1">
        <ss:Data ss:Type="String">ja</ss:Data>
    </Cell>
</Row>

第一语言的index属性会告诉您它的开始位置,并且合并跨越会告诉您它跨越了多少列。后续语言仅包含值的合并,这些值可以告诉您每种语言之后跨越多少列。

首先,这是两行样本数据的屏幕截图。

  

(下载图片的分辨率更高)   enter image description here

这是第一行的相应XML代码:

<Row ss:AutoFitHeight="0">
    <Cell ss:StyleID="NoBorderNumberCell">
        <ss:Data ss:Type="Number">1</ss:Data>
    </Cell>

    <Cell ss:StyleID="NoBorderCell">
        <ss:Data ss:Type="String">gl-cor</ss:Data>
    </Cell>

    <Cell ss:StyleID="NoBorderCell">
        <ss:Data ss:Type="String">account</ss:Data>
    </Cell>

    <Cell ss:StyleID="NoBorderCell">
        <ss:Data ss:Type="String">Tuple: parent container for account numbers and identifiers. No entry is made here, but each detail line may have multiple accounts assigned to it for reporting in different GAAPs, offsetting accounts in Japan</ss:Data>
    </Cell>

    <Cell ss:StyleID="NoBorderCell">
        <ss:Data ss:Type="String">Account Identifier</ss:Data>
    </Cell>

    <Cell ss:StyleID="NoBorderCell">
        <ss:Data ss:Type="String">タプル。勘定科目番号と識別子</ss:Data>
    </Cell>

    <Cell ss:StyleID="NoBorderCell"/>

    <Cell ss:StyleID="NoBorderCell">
        <ss:Data ss:Type="String">gl-plt</ss:Data>
    </Cell>
</Row>

我需要从给定的XML文件中提取3个值:

名称和前缀,它们不是语言的一部分并且始终存在,获取它们不是问题。

语言列下没有说出documentation的任何值。所以我需要忽略documentation

现在这里是我的代码,请阅读以上内容:

XElement xdocument=XElement.Load(fpath);
XNamespace ns="urn:schemas-microsoft-com:office:spreadsheet";
XNamespace docProperties="urn:schemas-microsoft-com:office:office";
XNamespace ss="urn:schemas-microsoft-com:office:spreadsheet";
XNamespace search="ss";

var labelLinkCol=(
    from worksheets in xdocument.Elements(ns+"Worksheet")
    where (string)worksheets.Attribute(ss+"Name")=="Label Link"
    from columnHead in worksheets.Descendants(ns+"Cell")
    where (string)columnHead.Attribute(ss+"StyleID")=="ColumnHead"
    select columnHead
    ).ToList();

var langValues=(
    from worksheets in xdocument.Elements(ns+"Worksheet")
    where (string)worksheets.Attribute(ss+"Name")=="Label Link"
    from columnHead in worksheets.Descendants(ns+"Cell")
    where (string)columnHead.Attribute(ss+"StyleID")=="ColumnHead2"
    select columnHead
    ).ToList();

var labelLinkValues=(
    from worksheets in xdocument.Elements(ns+"Worksheet")
    where (string)worksheets.Attribute(ss+"Name")=="Label Link"
    from columnHead in worksheets.Descendants(ns+"Cell")
    where
        (string)columnHead.Attribute(ss+"StyleID")!="ColumnHead"
        &&
        (string)columnHead.Attribute(ss+"StyleID")!="ColumnHead2"
        &&
        (string)columnHead.Attribute(ss+"StyleID")!="ColumnHead2BL"
    select columnHead
    ).ToList();

int index=0;
List<language> langList=new List<language>();

for(int j=0; j<langValues.Count; j++) {
    language languageXML=new language();

    //the first value has the index
    if(j==0) {
        index=Convert.ToInt32(langValues[j].Attribute(ss+"Index").Value);
        languageXML.index=index;
        languageXML.start=index;
        languageXML.end=index+Convert.ToInt32(langValues[j].Attribute(ss+"MergeAcross").Value);
        languageXML.languageValue=langValues[j].Value;
    }
    else {
        //get the value of when the first language begins
        languageXML.index=index;

        //to get the beginning, get the end of the previous location and add 1
        languageXML.start=langList[langList.Count-1].end+1;

        //to get the last column, add the merge to the beginning
        languageXML.end=languageXML.start+Convert.ToInt32(langValues[j].Attribute(ss+"MergeAcross").Value);
        languageXML.languageValue=langValues[j].Value;
    }

    langList.Add(languageXML);
    //Response.Write(languageXML.start + "--" + languageXML.end + "--" + languageXML.languageValue + "<br>");
}

language是一个简单的类,它只包含第一种语言的列,当前语言的起始列和当前语言的结束列。

我相信上面的代码是合理的。它读入所有值并正确识别每种语言的起始位置和结束位置,问题如前面所述。

1 个答案:

答案 0 :(得分:0)

在我看来,你正在使它变得比它需要的更复杂。我最近参与了一个项目,该项目要求用户从excel中复制数据,该数据通过剪贴板被读取为XML电子表格,然后通过解析器发送并转换为表格格式。

我发现XML电子表格参考非常有用:http://msdn.microsoft.com/en-us/library/office/aa140066(v=office.10).aspx

你应该注意的一件事,我认为是你的问题的原因是ss:Index不是基于零的(第1列=索引1)。

它应该像循环遍历行然后它们的单元格并跟踪单元格的索引一样简单。您可能还想检查所需的单元格是否具有子数据元素。