Question

我得到了像这样的pdf：

81 11005589 THING MAXIME 4 PC2I TR1 - MERCREDI DE 07H45 A 09H45 4A7
71 11007079 STUFF QUENTIN 1 PC2I TR1 - LUNDI DE 10H00 A 12H00 1B4
74 10506940 HAHA YEZHOU 2 PC2I TR1 - LUNDI DE 13H30 A 15H30 2D5

http://i.stack.imgur.com/hbXg2.png

我需要解析它。我的意思是在第4列，添加第3列并发送电子邮件地址。例如，第一行：maxime.thing@something.com

我尝试将其转换为Google文档，但它只是在一个单元格而不是多个单元格中进行c / p。

我真的不知道该怎么做。我想正则表达式会帮助我，但有什么用？

Answer 1

如果是Java iText，如果它是C＃iTextSharp，则两者都可以免费用于非商业用途。

Answer 2

之前我曾使用Aspose来解析PDF / Word文档/ Excel文档/以及其他一些文档。在解析PDF中的表格时，我不确定它们的功能是什么，但如果它们有某些东西，我不会感到惊讶。

我首先看一下它们但是要警告：他们有一个毫无歉意的糟糕的方法来更新他们的库。我不得不重写代码，因为它们在发布新版本时会破坏DROP功能。不要弃用，只需GONE。这表示他们的支持是正常的，工具集非常强大。

我知道他们有.NET和Java库。除此之外，我不能说。

Answer 3

如果在PHP中，您可以使用

exec('pdftotext '.$filepath, $outputAsArray); //execute the command pdftotext. Proabably installed if you're on linux, if not you can install it /// to transform the pdf to text,

然后

$text = implode($outputAsArray,"\n"); //to have the output as text

然后preg_replace是你的朋友。

Answer 4

您不能只使用正则表达式来解析PDF。您需要提取文本。有许多库可以为不同的语言执行此操作。

我的公司Atalasoft为.NET提供了一个文本提取插件 - http://www.atalasoft.com/products/dotimage/pdf-reader

对于Java，请查看Snowtide的PDFTextStream。 http://www.snowtide.com

Answer 5

您无法确定PDF中是否存在文本可见的任何结构。你真的需要使用提取工具。我写了一篇文章，解释了http://www.jpedal.org/PDFblog/?p=228

中PDF文件中实际格式化的内容

解析pdf文件

5 个答案: