我正在尝试使用C#程序从iTextSharp使用C#程序从可搜索的文本PDF发票/语句中提取所有带有坐标的单词(块)/字符,获得坐标后,创建XML文件,然后读取XML文件,将数据绘制到DataGridView 。我尝试了一些方法,例如iTestSharp。 iTextSharp extract each character and getRectangle 任何人都可以建议使用以下XML格式创建XML文件的方法:
<PDFExtract>
<PageLayout>Style</PageLayout>
<Page>
<Zone>
<Line>
<LOCX>298</LOCX>
<LOCY>199</LOCY>
<LOCW>1859</LOCW>
<LOCH>138</LOCH>
<WD>
<LOCX>298</LOCX>
<LOCY>199</LOCY>
<LOCW>139</LOCW>
<LOCH>69</LOCH>
<T>Start</T>
</WD>
<WD>
<LOCX>476</LOCX>
<LOCY>216</LOCY>
<LOCW>63</LOCW>
<LOCH>55</LOCH>
<T>Bucks</T>
</WD>
</Zone>
</Page>