PDF提取坐标并创建嵌套的XML文件

时间:2019-02-26 06:23:36

标签: c# itext

我正在尝试使用C#程序从iTextSharp使用C#程序从可搜索的文本PDF发票/语句中提取所有带有坐标的单词(块)/字符,获得坐标后,创建XML文件,然后读取XML文件,将数据绘制到DataGridView 。我尝试了一些方法,例如iTestSharp。 iTextSharp extract each character and getRectangle 任何人都可以建议使用以下XML格式创建XML文件的方法:

<PDFExtract>
<PageLayout>Style</PageLayout>
<Page>
    <Zone>
        <Line>
        <LOCX>298</LOCX>
        <LOCY>199</LOCY>
        <LOCW>1859</LOCW>
        <LOCH>138</LOCH>
            <WD>
            <LOCX>298</LOCX>
            <LOCY>199</LOCY>
            <LOCW>139</LOCW>
            <LOCH>69</LOCH>
            <T>Start</T>
            </WD>
            <WD>
            <LOCX>476</LOCX>
            <LOCY>216</LOCY>
            <LOCW>63</LOCW>
            <LOCH>55</LOCH>
            <T>Bucks</T>
            </WD>
    </Zone>
</Page>

0 个答案:

没有答案