我能够在我的ASP.net应用程序中使用PDFBOX读取pdf文件,但它没有为表格中的空单元格添加空间,所以如何使用C#中的PDFBOX从pdf文件中读取空白字段。有没有其他方法可以阅读pdf文件。
谢谢。
答案 0 :(得分:0)
如果您确切地知道文本应该提前的位置,并且可以在提取时获取文本的位置,那么可能能够完成此类操作它
如果您事先不知道行和单元格的位置,则必须根据文本位置进行猜测。这并不容易。
通常,不建议从PDF中提取数据。 PDF没有“表格”的概念(除非PDF创建者远离那里使用“标记内容”,这仍然很少见)。 PDF包含线条,字形和图像(一堆像素)。从这些信息中提取格式是非常困难的......有时甚至是不可能的。
我不知道PDFBox是否会提供提取文本的位置,但iTextSharp会。