从PHP下载时Word / Excel文件已损坏

时间:2014-07-10 15:53:16

标签: php docx xlsx

我正在构建一个简单的文件上传/文件下载功能到我的数据库中。唯一复杂的部分是所有文件都需要使用我的花式shmancy加密方法加密。

所以我要做的是创建一个SQL条目来存储类似的东西:id_file,filename,extension,size,dateadded等等

然后,一旦我获得了id_file,我将获取文件内容,加密它们,然后将内容作为[id_file] .txt保存到我的服务器。

然后这是再次下载文件的代码:

header("Pragma: public");
header('Content-Disposition: attachment;filename="'.$file['name'].'.'.$file['extension'].'"');
header('Cache-Control: max-age=0');

echo someFunctionIMadeForGettingAndDecryptingFileContents($_GET['id_file']);

exit;

非常简单的东西,适用于所有文件类型,除了.docx和.xlsx。下载.docx或.xlsx文件时,Office给出了一个错误,说“Word在”NAME OF FILE“中找到了不可读的内容。你想恢复这个文件的内容吗?如果你相信来源...... bla bla”我那么单击“是”。它思考了一下,文件打开就好了。但显然我不能让我的客户使用它,如果他们每次都会得到那个错误。

我编写的代码适用于所有其他文件类型。即使.doc,.xls和.zip文件也能正常工作。

我的第一个想法是查看标题。我尝试了各种各样的解决方案,比如这里列出的解决方案:

why my downloaded file is alwayes damaged or corrupted? PHP downloading excel file becomes corrupt

那些没用。

我知道一个问题可能是文件中添加了额外的填充或空格。但是,如果我上传.txt文件然后再次下载...我可以看到没有任何额外的添加。

如果我MD5原始文件(good.docx)和原始文件的下载版本(bad.docx),则哈希值不同。

如果我将good.docx更改为good.zip并解压缩存档。然后为bad.docx做同样的事情。然后MD5两个目录,哈希是相同的。我在good.zip和bad.zip中散列了每个文件,每个文件散列都是一样的。

另外需要注意的是,在我的服务器上的其他地方,我使用PHPWord和PHPExcel动态生成Office文件,这些文件都下载得很好。我用于PHPExcel的头文件/代码是:

header("Pragma: public");
header('Content-Type: application/vnd.openxmlformats-officedocument.spreadsheetml.sheet');
header('Content-Disposition: attachment;filename="'.$filename.'.xlsx"');
header('Cache-Control: max-age=0');
$objWriter = PHPExcel_IOFactory::createWriter($objPHPExcel, 'Excel2007');
$objWriter->save('php://output');
exit;

(是的,我尝试在上面的其他代码中使用“Content-Type”标题,但这没有帮助。)

我也尝试将文件保存在我的服务器上,下载并打开它。在完成该过程时,我得到了同样的错误。这是我过去常用的代码:

$f=fopen("/myPath/temp.docx","w");
fwrite($f,someFunctionIMadeForGettingAndDecryptingFileContents($_GET['id_file']));
fclose($f);
exit;

我尝试创建一个名为“blank.docx”的空Word文件。然后这样做而不是保存新文件的函数....它用解密的文件内容替换blank.docx的内容。但是当在该过程之后下载blank.docx时,我得到了所有相同的...一个错误,但它最终会打开。最初在blank.docx上的文件属性(如Template:Normal.dotm)都不在服务修改的blank.docx上。

我正在使用Office 2007

更新

这是一个下载文件的好(原始)版本的链接:http://empowerdb.org/good.docx

这是一个下载该文件的错误(已处理)版本的链接: http://empowerdb.org/bad.docx

正如Llama先生在下面指出的那样,我的加密功能正在削减一些额外的空字节。但事实证明,罪魁祸首并不像你想象的那么明显。这是我的加密:

trim(base64_encode(IV.mcrypt_encrypt(MCRYPT_RIJNDAEL_128,ENCKEY,$contents,MCRYPT_MODE_CBC,IV)))

问题不在于trim()或base64_encode()。它是使用mcrypt函数。我解决这个问题的方法是在传递我的文件内容以进行加密之前我做了另一个base64_encode()。就这样......

$file_contents_encrypted=base64_encode(myEncryptionFunction($file_contents));

当然,解密后反过来。

base64_encode在技术上运行两次。但我可以看到在这种情况下需要如何在mcrypt之前运行,因为.docx和.xlsx的独特zip格式

1 个答案:

答案 0 :(得分:7)

您的解密功能正在文件末尾删除空字节。

good.docx文件以四个0x00字节结尾,而bad.docx文件以无结尾。除了那些丢失的字节外,文件相同

$ wc -c good.docx
25123 good.docx

$ wc -c bad.docx
25119 bad.docx

$ tail -c 32 good.docx | od -x
0000000 6666 6365 7374 782e 6c6d 4b50 0605 0000
0000020 0000 0010 0010 041c 0000 5df1 0000 0000

$ tail -c 32 bad.docx | od -x
0000000 7469 4568 6666 6365 7374 782e 6c6d 4b50
0000020 0605 0000 0000 0010 0010 041c 0000 5df1

如果跳过good.docx的后四个字节,则md5总和完全匹配:

$ head -c -4 good.docx | md5sum
fbd32fbcc02d62dfd8bd39d390252a4b *-

$ cat bad.docx | md5sum
fbd32fbcc02d62dfd8bd39d390252a4b *-