我正在处理PDF。我只需要从PDF文件中提取日文文本。然后将保存以字符串类型保存到我的数据库中。
我已经在Stack Overflow和Google第4页上搜索过但无法找到解决方案。
我在pdfparser
尝试了github.com/smalot/pdfparser
的SMALOT,但它只显示unreadable characters (image)
例如:
\ w���w����/�����yyy/��Fq�J�yyy/�S�M��dyyy/�q��Cyyy/�&gt ;; �Cyyy/��������yyy/�] b;tKh�yyy/�������y/����yyyy/����Cyyyyy/��a���yyyy/ ����wyyy/�a�Ugyyy/�����e{yyyy /�2�"版权所有(c)2014 Daiichikizai。,Co.,Ltd保留所有权利。
我正在使用Yii framework
,PHP 5.5
我尝试了utf-encode()
,utf-decode()
,mb_convert_encoding()
,但没有任何效果。
更新:我尝试mb_detect_encoding()
并返回UTF-8
。所以这里可能不是编码问题。
任何建议都会深表感谢。