pdf使用php和drupal进行文本转换

时间:2015-12-07 13:53:14

标签: php drupal github shared-libraries pdftotext

我正在使用this code将pdf转换为文本,它工作正常,但它不支持瑞典语字符, 像:

correect swedish word     = incorrect word    
Förnamn                   = Fšrnamn,
Försäljningsdatum         = FšrsŠljningsdatum,
varumärket                = varumŠrket,
terförsäljaruppgifter     = terfšrsŠljaruppgifter

代码是:

<?php
    require_once "pdf.pdf2text.inc";
    $filename = "customerfile.pdf";
    $pdf = new Pdf(urldecode($filename));
    print utf8_decode($pdf->getText());//with utf-8
    print $pdf->getText(); //without utf-8
?>

我添加了utf-8编码/解码但它不起作用。 using this code

请任何人帮助我或建议我使用此代码显示正确的文字(单词)。

提前感谢。

1 个答案:

答案 0 :(得分:0)

iconv();可能是http://php.net/manual/fr/function.utf8-decode.php

的可能性

$myUnicodeString = "Åäö"; echo iconv("UTF-8", "ISO-8859-1", $myUnicodeString);因为有些评论说UTF-8_decode();不足以处理重音。

根据来自Saubhagya的Drupal.org的评论:

在数组$ _pdfDocToUni第18行文件initialize.pdf2text.inc中添加所需字符的八进制和unicode等价物(记住八进制需要与数组的其他条目一样为3位数。)

然后转到pdf2text.module的第335行,并以与其他格式相同的格式添加你的角色。

https://www.drupal.org/node/1079780

不确定使用“just”这个词,但它可能有帮助......

这似乎是他正在谈论的模块,它确实有他提到的阵列 - 也许你的版本可能缺少模块 - 似乎有很多它们提供

http://cgit.drupalcode.org/pdf2text/tree/pdf2text.module?id=a15059bc1531aa336fef255397ba362c81c9fce5