所以我安装了PDF Parser(http://www.pdfparser.org/)。我检查了他们的网站并使用了该演示。这给了我想要的结果。经过几个小时的搜索如何使用作曲家我终于设法让它工作。现在我遇到了下一个如何从演示中获得结果的问题。
我使用了文档页面上给出的示例代码。它确实提取了文本,但所有文本都在同一行。当我使用演示时,每个新页面都以一个新段落开头,每一段文字都放在一个单独的行上。代码:
<?php
// Include Composer autoloader if not already done.
include 'vendor/autoload.php';
// Parse pdf file and build necessary objects.
$parser = new \Smalot\PdfParser\Parser();
$pdf = $parser->parseFile('document.pdf');
// Retrieve all pages from the pdf file.
$pages = $pdf->getPages();
// Loop over each page to extract text.
foreach ($pages as $page) {
echo $page->getText();
}
?>
正如我所说的,当我使用上面的代码时,我将所有文本都放在一行上。我的问题是如何获得与演示页面上的脚本相同的结果?
答案 0 :(得分:2)
我有同样的问题。用nl2br
以这种方式循环// Loop over each page to extract text.
foreach ($pages as $page) {
echo nl2br($page->getText());
}