如何在ASP.net中读取PDF文件中的空单元格

时间:2010-12-13 14:10:03

标签: c# pdf pdfbox

我能够在我的ASP.net应用程序中使用PDFBOX读取pdf文件,但它没有为表格中的空单元格添加空间,所以如何使用C#中的PDFBOX从pdf文件中读取空白字段。有没有其他方法可以阅读pdf文件。

谢谢。

1 个答案:

答案 0 :(得分:0)

如果您确切地知道文本应该提前的位置,并且可以在提取时获取文本的位置,那么可能能够完成此类操作它

如果您事先不知道行和单元格的位置,则必须根据文本位置进行猜测。这并不容易。

通常,不建议从PDF中提取数据。 PDF没有“表格”的概念(除非PDF创建者远离那里使用“标记内容”,这仍然很少见)。 PDF包含线条,字形和图像(一堆像素)。从这些信息中提取格式是非常困难的......有时甚至是不可能的。

我不知道PDFBox是否会提供提取文本的位置,但iTextSharp会。