使用php从pdf文件中读取数据

时间:2014-02-14 09:47:32

标签: php pdf

我使用此链接http://webcheatsheet.com/php/reading_clean_text_from_pdf.php中的代码阅读pdf文件。我的pdf文件包含表格结构,但在阅读文件后所有数据混乱如xxx 333退出国家26-01-2014 yyy 444输入国家26-01-2014 zzz 555退出国家26-01-2014

我的pdf结构是

visaNo姓名日期类型

333 xxx 26-01-2014来自国家
 444 yyy 26-01-2014进入国家
 555 zzz 26-01-2014来自国家

1 个答案:

答案 0 :(得分:0)

恐怕没有简单的解决办法。 在pdf源代码中,您记下文本位的顺序并不重要,因为您可以为它们提供特定的协调。 你可以做的两件事是(imho):

  1. [在任何情况下]更改您的代码以分隔文本流(可能用您选择的特殊字符替换Tj和TJ,而不是将它们丢弃)
  2. 如果您非常确定生成pdf文件的软件是否一致,请手动切换列(单元格将由您的特殊字符分隔)
  3. 如果不是,我担心你需要更多地更改你的代码并照顾所有文本流的cohordinates,并从中猜出你的文本流的行#和col#。
  4. 我真的希望你有一些php类这样做