我正在尝试从PDF中提取文本并获取PDF内容内的某些特定数据。
我想要得到的是 名称,地址,电子邮件,联系人编号等。我已经在pdf文件中提取了文本,但是在获取仅包含名称,地址等的数据时会堆叠在一起。
这是从pdf中提取字符串的示例。
我想要的只是获取名称,地址和联系方式的值。 例如:
名称:Cabatay John 地址:#208
有没有可能的解决方案来提取此字符串?谢谢!
这是我解析PDF文件的代码。
$parser = new \Smalot\PdfParser\Parser();
$pdf = $parser->parseFile(base_url('public/uploads/'.$upload['file_name']));
$text = $pdf->getText();
echo $text;
使用的图书馆:http://www.pdfparser.org/
答案 0 :(得分:1)
您说您已经将pdf的文本提取为字符串,然后可以对其进行处理,并使用php函数提取所需的任何内容..类似这样的东西:
$name_and_address = strstr($pdf_string, 'CONTACT', true);
这将返回单词"contact"
第一次出现之前的所有内容,在这种情况下,这就是您想要的,这将始终是相同的模式。