将特定数据从PDF导出到XML

时间:2015-04-21 07:22:17

标签: c# .net xml pdf

我使用此代码从PDF中提取特定数据,如何将其存储为XML文件。

private string ParseCodeText(string sourceStr)
{
string pattern = @"\(\d{3}\)\s\d\s\d{8}\s\d{10}\s\d";
string extractedCode = System.Text.RegularExpressions.Regex.Match(sourceStr, pattern).Value;
return extractedCode;
}

XML文件格式:

<?xml version="1.0" encoding="UTF-8"?>

-<Files_table>


-<Files>

<File_name>Filename1</File_name>

<Page>1</Page>

<code>(00) 123 456</code>

<Printed>Y</Printed>

</Files>


-<Files>

<File_name>Filename1</File_name>

<Page>2</Page>

<code>(00) 456 789</code>

<Printed>N</Printed>

</Files>

</Files_table>

1 个答案:

答案 0 :(得分:0)

抽象答案是:创建数据对象(如下所示):

    public class  FilterTable
    {
        public MyFile[] Files { get; set; }
    }

    public class MyFile
    {
        public string FileName { get; set; }
        public int Page { get; set; }
        public string Code { get; set; }
        public string Printed { get; set; }
    }

使用您的数据填写

使用XMLSerializer序列化数据。

您必须设置一些属性才能使命名正确。