从日语.pdf文件中提取文本

时间:2016-04-07 07:54:29

标签: php pdf yii character-encoding

我正在处理PDF。我只需要从PDF文件中提取日文文本。然后将保存以字符串类型保存到我的数据库中。

我已经在Stack Overflow和Google第4页上搜索过但无法找到解决方案。

我在pdfparser尝试了github.com/smalot/pdfparser的SMALOT,但它只显示unreadable characters (image)

例如:

  

\ w���w����/�����yyy/��Fq�J�yyy/�S�M��dyyy/�q��Cyyy/�&gt ;; �Cyyy/��������yyy/�] b;tKh�yyy/�������y/​​����yyyy/����Cyyyyy/��a���yyyy/ ����wyyy/�a�Ugyyy/�����e{yyyy /�2�"版权所有(c)2014 Daiichikizai。,Co.,Ltd保留所有权利。

我正在使用Yii frameworkPHP 5.5

我尝试了utf-encode()utf-decode()mb_convert_encoding(),但没有任何效果。

更新:我尝试mb_detect_encoding()并返回UTF-8。所以这里可能不是编码问题。

任何建议都会深表感谢。

0 个答案:

没有答案