我正在尝试解析word文档文件。我上传使用PHP然后我试图使用file_get_contents();功能,但问题是它在前端显示了很多垃圾代码,如
Æ�Ѐ¤d�¤d�[$\$gd®l±����„h¤d�¤d�[$\$^„hgd®l±���
&�F�¤d�¤d�[$\$gd3¡���gd3¡����„,¤d�¤d�[$\$^„,gd(E����¤d�¤d�[$\$gdÿ/��<��C��D��I��Å������O��P��‚��¡��¢��¬����®��Ù��ã��ó��ô�����
所以我的问题是如何清理这段文字?
答案 0 :(得分:2)
也许试一试? http://www.phpclasses.org/package/3553-PHP-Edit-Microsoft-Word-documents-using-COM-objects.html
答案 1 :(得分:1)
Word文档(如docx和doc)不是直接文本文件 - 它们实际上是专有文件类型,不仅具有字节0中的文本 - 这就是它们具有花哨的格式和字体的方式。 .docx文件实际上是包含大量XML和样式的存档(.zip文件)。
您最好的选择是使用文本输入表单,或在线查找允许您仅提取文本的代码。或者,将doc文件下载到您自己的计算机上,并使用您自己的MS word副本打开它。