我有一些从word或excel文件创建的pdf文件。
我需要获取表格中的信息。
文档中的文字不是图像,因此我可以使用pdfbox等工具提取文本。
当我有文字时,我无法知道它所属的表格中的哪些单元格,因为我不知道表格边框的位置。
我尝试了一些桌面工具,如abby或固体pdf转换器,他们能够将文件转换成漂亮的word文档,但这不符合我的需要,因为我希望能够做到这一点在C#中编程。
有些表格有嵌套表格,我认为这会让这更加困难。
感谢您的帮助
答案 0 :(得分:1)
这里的困难是因为PDF中的文本不包含在任何表格中。它可能看起来像是,但在表面下,它不是。
所以我可以想到几个选项。但是他们中的任何一个都不会像你想的那样令人满意。
这是一项艰巨的任务,但希望这会给你一个起点。