来自pdf非英文字符的文字

时间:2015-05-06 19:44:25

标签: php regex pdf pdftotext

我正在尝试使用pdf2text库:

http://webcheatsheet.com/php/reading_clean_text_from_pdf.php

我的pdf包含捷克语的数据,并且该库存在某些字符的问题,即:

ř被Y取代 Ž被替换为} Kč被K \ r取代 ..等等。

但其中一些还可以,比如:í,ú,Ý。

更换正则表达式

  

[0-9A-F]

  

[0-9 \ x01- \ 0x7F部分]

图书馆中的

根本没有给我任何结果(说实话,我对正则表达不太好)。用mb_替换字符串函数也没什么区别

示例数据:

  

Kupující:anna123 - Anna Tova; Příjemce:Anna Tova,Jezborice 123,530 02 Pardubice; Kontaktníúdaje:   AnnT@seznam.cz,7211111   A1244SVET_MODNISTYLOVÝSVETRV.42-POUŽITÉ(5209214093)

给我结果:

  

Kupující:anna123 - Anna Tova; PYíjemce:Anna Tova,Jezborice 123,530 02 Pardubice; Kontaktníúdaje:AnnT@seznam.cz,7211111 A1244SVET_MODNISEYLOVÝSVETRV.42-POU}ITÉ(5209214093)

由于

0 个答案:

没有答案