在PHP和Codeigniter中获取PDF的特定内容

时间:2018-12-27 13:54:20

标签: php pdf codeigniter-3

我正在尝试从PDF中提取文本并获取PDF内容内的某些特定数据。

我想要得到的是 名称,地址,电子邮件,联系人编号等。我已经在pdf文件中提取了文本,但是在获取仅包含名称,地址等的数据时会堆叠在一起。

这是从pdf中提取字符串的示例。

enter image description here

我想要的只是获取名称,地址和联系方式的值。 例如:

名称:Cabatay John 地址:#208

有没有可能的解决方案来提取此字符串?谢谢!

这是我解析PDF文件的代码。

        $parser = new \Smalot\PdfParser\Parser();
        $pdf    = $parser->parseFile(base_url('public/uploads/'.$upload['file_name']));

        $text = $pdf->getText();

        echo $text;

使用的图书馆:http://www.pdfparser.org/

1 个答案:

答案 0 :(得分:1)

您说您已经将pdf的文本提取为字符串,然后可以对其进行处理,并使用php函数提取所需的任何内容..类似这样的东西:

$name_and_address = strstr($pdf_string, 'CONTACT', true);

这将返回单词"contact"第一次出现之前的所有内容,在这种情况下,这就是您想要的,这将始终是相同的模式。