我正在使用this code将pdf转换为文本,它工作正常,但它不支持瑞典语字符, 像:
correect swedish word = incorrect word
Förnamn = Fšrnamn,
Försäljningsdatum = FšrsŠljningsdatum,
varumärket = varumŠrket,
terförsäljaruppgifter = terfšrsŠljaruppgifter
代码是:
<?php
require_once "pdf.pdf2text.inc";
$filename = "customerfile.pdf";
$pdf = new Pdf(urldecode($filename));
print utf8_decode($pdf->getText());//with utf-8
print $pdf->getText(); //without utf-8
?>
我添加了utf-8编码/解码但它不起作用。 using this code
请任何人帮助我或建议我使用此代码显示正确的文字(单词)。
提前感谢。
答案 0 :(得分:0)
iconv();
可能是http://php.net/manual/fr/function.utf8-decode.php
$myUnicodeString = "Åäö";
echo iconv("UTF-8", "ISO-8859-1", $myUnicodeString);
因为有些评论说UTF-8_decode();
不足以处理重音。
根据来自Saubhagya的Drupal.org的评论:
在数组$ _pdfDocToUni第18行文件initialize.pdf2text.inc中添加所需字符的八进制和unicode等价物(记住八进制需要与数组的其他条目一样为3位数。)
然后转到pdf2text.module的第335行,并以与其他格式相同的格式添加你的角色。
https://www.drupal.org/node/1079780
不确定使用“just”这个词,但它可能有帮助......
这似乎是他正在谈论的模块,它确实有他提到的阵列 - 也许你的版本可能缺少模块 - 似乎有很多它们提供
http://cgit.drupalcode.org/pdf2text/tree/pdf2text.module?id=a15059bc1531aa336fef255397ba362c81c9fce5