解析pdf文件

时间:2010-10-14 15:35:30

标签: parsing pdf

我得到了像这样的pdf:

81 11005589 THING MAXIME 4 PC2I TR1 - MERCREDI DE 07H45 A 09H45 4A7
71 11007079 STUFF QUENTIN 1 PC2I TR1 - LUNDI DE 10H00 A 12H00 1B4
74 10506940 HAHA YEZHOU 2 PC2I TR1 - LUNDI DE 13H30 A 15H30 2D5

http://i.stack.imgur.com/hbXg2.png

我需要解析它。我的意思是在第4列,添加第3列并发送电子邮件地址。例如,第一行:maxime.thing@something.com

我尝试将其转换为Google文档,但它只是在一个单元格而不是多个单元格中进行c / p。

我真的不知道该怎么做。我想正则表达式会帮助我,但有什么用?

5 个答案:

答案 0 :(得分:1)

如果是Java iText,如果它是C#iTextSharp,则两者都可以免费用于非商业用途。

答案 1 :(得分:0)

之前我曾使用Aspose来解析PDF / Word文档/ Excel文档/以及其他一些文档。在解析PDF中的表格时,我不确定它们的功能是什么,但如果它们有某些东西,我不会感到惊讶。

我首先看一下它们但是要警告:他们有一个毫无歉意的糟糕的方法来更新他们的库。我不得不重写代码,因为它们在发布新版本时会破坏DROP功能。不要弃用,只需GONE。这表示他们的支持是正常的,工具集非常强大。

我知道他们有.NET和Java库。除此之外,我不能说。

答案 2 :(得分:0)

如果在PHP中,您可以使用

exec('pdftotext '.$filepath, $outputAsArray); //execute the command pdftotext. Proabably installed if you're on linux, if not you can install it /// to transform the pdf to text,

然后

$text = implode($outputAsArray,"\n"); //to have the output as text

然后preg_replace是你的朋友。

答案 3 :(得分:0)

您不能只使用正则表达式来解析PDF。您需要提取文本。有许多库可以为不同的语言执行此操作。

我的公司Atalasoft为.NET提供了一个文本提取插件 - http://www.atalasoft.com/products/dotimage/pdf-reader

对于Java,请查看Snowtide的PDFTextStream。 http://www.snowtide.com

答案 4 :(得分:0)

您无法确定PDF中是否存在文本可见的任何结构。你真的需要使用提取工具。我写了一篇文章,解释了http://www.jpedal.org/PDFblog/?p=228

中PDF文件中实际格式化的内容