在PHP中从pdf中提取文本并不适用于所有PDF文件

时间:2016-11-19 06:01:16

标签: php pdf text-extraction pdftotext

我从PDF文件中提取文本。这是代码:

<?php

require("PdfToText.php");

$file   =  'SamplePF' ;
$pdf    =  new PdfToText ( "$file.pdf" ) ;
echo ( $pdf -> Text ) ;

?>

此类适用于某些PDF文件。 这个课的问题是:

  1. 对于某些PDF文件,它从随机页面/行中获取文本而不是 页面序列明智。
  2. 对于某些PDF文件,它没有显示任何结果。
  3. 对于某些PDF文件,它只提取一行或两行。
  4. 请提出一些解决方案。谢谢!

1 个答案:

答案 0 :(得分:0)

我不确定这可能是确切的问题,因为你无法提取但我在从pdf中提取数据时也遇到了类似的问题。有时PDF文件被所有者密码锁定,这对文档施加了某些限制,不允许更改,内容复制或提取等,以保护其版权问题。 Check this link for more info on owner passwords

因此,您可以先尝试删除所有者密码,然后尝试提取此类pdf。要删除所有者密码,可以在线获得许多工具,您可以选择最适合您的工具。