我想将此pdf页面this is the pdf screenshot与列一起转换为.xls文件。
答案 0 :(得分:1)
您应该能够使用PDF解析库来提取文本。这可能很容易变得不可能。这取决于表在内部的表示方式。如果它表示为图像,您还需要一个OCR库。在最简单的情况下,您可以将所有文本提取为字符串,并根据标签或其他空格根据换行符和列拆分行。
试试这个,看看会发生什么:http://www.squarepdf.net/parsing-pdf-files-using-itextsharp
编辑:我专注于阅读PDF部分。只需快速谷歌搜索,就可以写入Excel了。