从pdf中提取阿拉伯语文本时出现奇怪的单词(PdfToText)

时间:2018-03-19 16:07:42

标签: php pdftotext

从pdf中提取阿拉伯语文本时遇到问题 我使用PdfToText
文字出现在这个图中(΋ΎϬϧϟ΍υΫΣϟ΍ΦϳέΎΗΏϟΎρϟ΍ϡϳΩϘΗΝΫϭϣϧΩϳϘϟ΍ϡ&έ) 我怎么解决呢?我试过了

<meta content="text/html; charset=utf-8" http-equiv="Content-Type" />
但这并没有解决我的问题

1 个答案:

答案 0 :(得分:0)

英文字母是基本ASCII字符集的一部分,因此输出通常没有任何问题,但任何其他语言使用各种重音或甚至不同的字母,即。阿拉伯语,Azbuka,希腊语等使用基本集合中的字母。

确保所有三个来源都使用相同的编码:

  1. 生成输出的所有PHP脚本
  2. HTML编码元标记
  3. 输出文件
  4. ad 1
    检查编辑器如何将PHP脚本保存到文件系统。如何设置它的方式与每个编辑器不同

    广告2 使用HTML元标记<meta http-equiv="Content-Type" content="text/html; charset=UTF-8">

    广告3 定义要使用UTF-8的编码,例如:pdftotext -enc UTF-8 your.pdf。根据文档,PdfToText类生成UTF8编码的文本。