如何手动处理上传的文件数据?

时间:2019-08-13 18:21:41

标签: python flask

我正在尝试手动保存上载的文件以供学习,而无需request.files的帮助。

我正在使用Flask,它通过str为我提供了print(type(reqeust.data))类型的原始数据

  1. 我很困惑。我是否应该获取二进制数据<type bytes>

但是我再想一想,即使我获得了二进制数据,如何过滤前几行,然后从正确的地方开始读取二进制数据?

例如:

-----------------------------1699415032232102060211780227
Content-Disposition: form-data; name="myfile"; filename="Screenshot from 2018-10-05 15-49-07.png"
Content-Type: image/png

�PNG

�ߧd�tEXtSoftwaregnome-screenshot��>�IDATx���OPY����l�*c���=��El"f[��)3��S�+z-v�0�c������zp����6��qS�\W��6S�qM�S=tG�Ǩb��A�ؒvc���@rh��.N]���?JK����b+�J��(�����OR�T
-----------------------------1699415032232102060211780227--

  1. 有人可以教我如何手动保存文件数据吗?

1 个答案:

答案 0 :(得分:0)

最后我自己弄清楚了。

  1. 我从str获得request.data的原因是因为我使用的是python2.7烧瓶包装。这么痛的屁股。我肯定会在下次甚至使用virtualenv进行测试。但是我仍然不明白为什么当软件包与python2.7有关时,为什么我可以在服务器代码中使用python3语法。

  2. 所以实际上我是从b'raw binary data'获取像request.data这样的原始字节数据。以及其他功能的数据request.form['firstname']之类的东西已经被解码了。

因此,现在的问题归结为我如何在提供二进制数据的情况下重建文件。


首先,我准备2个小文件进行测试。

文件1:1.txt

内容:1234567

file2:test.png这个小图像------> enter image description here

内容(使用open('test.png', 'rb').read()):

b'\x89PNG\r\n\x1a\n\x00\x00\x00\rIHDR\x00\x00\x00\t\x00\x00\x00\x08\x08\x02\x00\x00\x00\xa4\xafB\xe2\x00\x00\x00\x03sBIT\x08\x08\x08\xdb\xe1O\xe0\x00\x00\x00\x10tEXtSoftware\x00Shutterc\x82\xd0\t\x00\x00\x00\x15IDAT\x08\xd7c\xd4\xe5Tb\xc0\x01\x98\x18p\x83\xa1"\x07\x00T;\x00h\xb9\x9335\x00\x00\x00\x00IEND\xaeB`\x82'

所以我在服务器上看到的request.data是:

b'-----------------------------16866548741414816351605255076\r\nContent-Disposition: form-data; name="myfile"; filename="1.txt"\r\nContent-Type: text/plain\r\n\r\n1234567\r\n-----------------------------16866548741414816351605255076\r\nContent-Disposition: form-data; name="myfile2"; filename="test.png"\r\nContent-Type: image/png\r\n\r\n\x89PNG\r\n\x1a\n\x00\x00\x00\rIHDR\x00\x00\x00\t\x00\x00\x00\x08\x08\x02\x00\x00\x00\xa4\xafB\xe2\x00\x00\x00\x03sBIT\x08\x08\x08\xdb\xe1O\xe0\x00\x00\x00\x10tEXtSoftware\x00Shutterc\x82\xd0\t\x00\x00\x00\x15IDAT\x08\xd7c\xd4\xe5Tb\xc0\x01\x98\x18p\x83\xa1"\x07\x00T;\x00h\xb9\x9335\x00\x00\x00\x00IEND\xaeB`\x82\r\n-----------------------------16866548741414816351605255076--\r\n'

格式化一下:

(数据不能直接使用,因为我添加了额外的新行来显示。)

b'-----------------------------16866548741414816351605255076\r\n  
Content-Disposition: form-data; name="myfile"; filename="1.txt"\r\n
Content-Type: text/plain\r\n\r\n
1234567\r\n
  -----------------------------16866548741414816351605255076\r\n 
Content-Disposition: form-data; name="myfile2"; filename="test.png"\r\n
Content-Type: image/png\r\n\r\n
\x89PNG\r\n\x1a\n\x00\x00\x00\rIHDR\x00\x00\x00\t\x00\x00\x00\x08\x08\x02\x00\x00\x00\xa4\xafB\xe2\x00\x00\x00\x03sBIT\x08\x08\x08\xdb\xe1O\xe0\x00\x00\x00\x10tEXtSoftware\x00Shutterc\x82\xd0\t\x00\x00\x00\x15IDAT\x08\xd7c\xd4\xe5Tb\xc0\x01\x98\x18p\x83\xa1"\x07\x00T;\x00h\xb9\x9335\x00\x00\x00\x00IEND\xaeB`\x82\r\n
-----------------------------16866548741414816351605255076--\r\n'

raw_data = binary data above

  1. files_data_array = raw_data.split(b'-----------------------------16866548741414816351605255076\r\n)

然后我得到一个数组,每个文件的索引不同。

files_data_array[1]包含第一个文件的元信息和数据。 files_data_array[2]包含第二个文件的元信息和数据。等等,如果您有更多文件。

[b'', b'Content-Disposition: form-data; name="myfile"; filename="1.txt"\r\nContent-Type: text/plain\r\n\r\n1234567\r\n', b'Content-Disposition: form-data; name="myfile2"; filename="test.png"\r\nContent-Type: image/png\r\n\r\n\x89PNG\r\n\x1a\n\x00\x00\x00\rIHDR\x00\x00\x00\t\x00\x00\x00\x08\x08\x02\x00\x00\x00\xa4\xafB\xe2\x00\x00\x00\x03sBIT\x08\x08\x08\xdb\xe1O\xe0\x00\x00\x00\x10tEXtSoftware\x00Shutterc\x82\xd0\t\x00\x00\x00\x15IDAT\x08\xd7c\xd4\xe5Tb\xc0\x01\x98\x18p\x83\xa1"\x07\x00T;\x00h\xb9\x9335\x00\x00\x00\x00IEND\xaeB`\x82\r\n-----------------------------16866548741414816351605255076--\r\n']
  1. file2_data = files_data_array[2]
b'Content-Disposition: form-data; name="myfile2"; filename="test.png"\r\nContent-Type: image/png\r\n\r\n\x89PNG\r\n\x1a\n\x00\x00\x00\rIHDR\x00\x00\x00\t\x00\x00\x00\x08\x08\x02\x00\x00\x00\xa4\xafB\xe2\x00\x00\x00\x03sBIT\x08\x08\x08\xdb\xe1O\xe0\x00\x00\x00\x10tEXtSoftware\x00Shutterc\x82\xd0\t\x00\x00\x00\x15IDAT\x08\xd7c\xd4\xe5Tb\xc0\x01\x98\x18p\x83\xa1"\x07\x00T;\x00h\xb9\x9335\x00\x00\x00\x00IEND\xaeB`\x82\r\n-----------------------------16866548741414816351605255076--\r\n'

然后将元数据除以file2_meta_info = file2_data.split(b'\r\n\r\n', maxsplit=1)[0]。 请注意,这里是在分割二进制数据,如果文件数据中有b'\r\n\r\n',则必须设置maxsplit

现在我将file2_meta_info设为b'Content-Disposition: form-data; name="myfile"; filename="1.txt"',我可以对其进行解码并获取所需的任何元信息。

现在转到文件正文数据本身,file2_body_data = file2_data.split(b'\r\n\r\n', maxsplit=1)[1]

我知道

b'\x89PNG\r\n\x1a\n\x00\x00\x00\rIHDR\x00\x00\x00\t\x00\x00\x00\x08\x08\x02\x00\x00\x00\xa4\xafB\xe2\x00\x00\x00\x03sBIT\x08\x08\x08\xdb\xe1O\xe0\x00\x00\x00\x10tEXtSoftware\x00Shutterc\x82\xd0\t\x00\x00\x00\x15IDAT\x08\xd7c\xd4\xe5Tb\xc0\x01\x98\x18p\x83\xa1"\x07\x00T;\x00h\xb9\x9335\x00\x00\x00\x00IEND\xaeB`\x82\r\n-----------------------------16866548741414816351605255076--\r\n'

与开头显示的test.png的内容相比,我仍然需要削减一些字节

real_file2_body_data = file2_body_data.rsplit(b'\r\n', maxsplit=2)[0]'

最后,我可以使用以下命令重新建立文件:

f = open('test2.png', 'wb')
f.write(real_file2_body_data)
f.close()

完成!