我正在尝试使用pdf2text库:
http://webcheatsheet.com/php/reading_clean_text_from_pdf.php
我的pdf包含捷克语的数据,并且该库存在某些字符的问题,即:
ř被Y取代 Ž被替换为} Kč被K \ r取代 ..等等。
但其中一些还可以,比如:í,ú,Ý。
更换正则表达式
[0-9A-F]
与
图书馆中的[0-9 \ x01- \ 0x7F部分]
根本没有给我任何结果(说实话,我对正则表达不太好)。用mb_替换字符串函数也没什么区别
示例数据:
Kupující:anna123 - Anna Tova; Příjemce:Anna Tova,Jezborice 123,530 02 Pardubice; Kontaktníúdaje: AnnT@seznam.cz,7211111 A1244SVET_MODNISTYLOVÝSVETRV.42-POUŽITÉ(5209214093)
给我结果:
Kupující:anna123 - Anna Tova; PYíjemce:Anna Tova,Jezborice 123,530 02 Pardubice; Kontaktníúdaje:AnnT@seznam.cz,7211111 A1244SVET_MODNISEYLOVÝSVETRV.42-POU}ITÉ(5209214093)
由于