我正在尝试上传PDF文件,并希望将其从PDF转换为文本。一些文件能够转换并从PDF中获得带有魅力的文本,但其中一些文件存在截图所示的问题。有两个不同的示例((尽管它显示3,但2相同))顶部和第二个是相同的,我认为它的编码方式不正确(不确定),而第三个则仅捕获一半信息从PDF。我需要的主要内容是停止之后。
我该如何解决?
use App\FilePdf;
use Spatie\PdfToText\Pdf;
$name=$file->getClientOriginalName();
$file->move(public_path().'/pdftotext/', $name);
$path = public_path('/pdftotext/'. $name);
$reader = new \Asika\Pdf2text;
$output = $reader->decode($path);
$data[] = $name;
$output = str_replace(array("\n", "\r"), '', trim($output));
dd($output);
或者如果有其他替代方法可以解决此问题,请提出建议。
感谢您的宝贵时间。
答案 0 :(得分:0)
使用以下功能获取pdf文件的字符串
use Spatie\PdfToText\Pdf;
$pdf_string = Pdf::getText(public_path() . "/<foldername>/<pdffilename>);