我需要从pdf文件中提取php变量中的文本,我使用了pdf2text,但是当我尝试将字符串转换为utf-8目标时,我遇到了问题。
此外,如果有人知道删除字符串的空格和行breacks的更好方法,我将不胜感激。
这是我用过的代码:
header('Content-type: text/html; charset=utf-8');
mb_internal_encoding('UTF-8');
mb_http_output('UTF-8');
include('pdftophp.php');
$doc = new PDF2Text();
$doc->setFilename('pdf/prueba.pdf');
$doc->decodePDF();
$texto = $doc->output();
$resultado = "";
for ($i=0; $i < strlen($texto) ; $i++) {
if (substr($texto,$i,1) != " " && substr($texto,$i,1) != "\n"){
$resultado.= substr($texto,$i,1);
}
}
echo $resultado;