使用python urllib / urllib2发出一个http POST请求来上传文件

时间:2014-11-20 22:00:27

标签: python http post urllib2 urllib

我想发一个POST请求,使用python将文件上传到Web服务(并获得响应)。例如,我可以使用curl执行以下POST请求:

curl -F "file=@style.css" -F output=json http://jigsaw.w3.org/css-validator/validator

如何使用python urllib / urllib2发出相同的请求?我到目前为止最接近的是:

with open("style.css", 'r') as f:
    content = f.read()
post_data = {"file": content, "output": "json"}
request = urllib2.Request("http://jigsaw.w3.org/css-validator/validator", \
                          data=urllib.urlencode(post_data))
response = urllib2.urlopen(request)

我从上面的代码中获得了HTTP错误500。但是,由于我的curl命令成功,我的python请求一定是错的?

我对这个话题很陌生,如果菜鸟问题有很简单的答案或错误,请原谅我。提前感谢您的帮助!

3 个答案:

答案 0 :(得分:10)

我个人认为您应该考虑requests库来发布文件。

url = 'http://jigsaw.w3.org/css-validator/validator'
files = {'file': open('style.css')}
response = requests.post(url, files=files)

使用urllib2上传文件并非不可能,但任务非常复杂:http://pymotw.com/2/urllib2/#uploading-files

答案 1 :(得分:10)

经过一番挖掘,似乎this post解决了我的问题。事实证明我需要正确设置多部分编码器。

from poster.encode import multipart_encode
from poster.streaminghttp import register_openers
import urllib2

register_openers()

with open("style.css", 'r') as f:
    datagen, headers = multipart_encode({"file": f})
    request = urllib2.Request("http://jigsaw.w3.org/css-validator/validator", \
                              datagen, headers)
    response = urllib2.urlopen(request)

答案 2 :(得分:1)

嗯,有多种方法可以做到这一点。如上所述,您可以通过“ multipart / form-data”发送文件。但是,目标服务可能不需要这种类型,在这种情况下,您可以尝试其他方法。

传递文件对象

urllib2可以将文件对象接受为data。传递此类型时,库会将文件读取为二进制流并将其发送出去。但是,它将设置正确的Content-Type标头。此外,如果缺少Content-Length标头,则它将尝试访问对象的len属性,该属性对于文件不存在。也就是说,您必须同时提供Content-TypeContent-Length标头才能使该方法正常工作:

import os
import urllib2

filename = '/var/tmp/myfile.zip'
headers = {
    'Content-Type': 'application/zip',
    'Content-Length': os.stat(filename).st_size,
}
request = urllib2.Request('http://localhost', open(filename, 'rb'),
                          headers=headers)
response = urllib2.urlopen(request)

包装文件对象

为了不处理长度,可以创建一个简单的包装对象。只需稍作更改,如果文件已加载到内存中,则可以对其进行调整以从字符串中获取内容。

class BinaryFileObject:
  """Simple wrapper for a binary file for urllib2."""

  def __init__(self, filename):
    self.__size = int(os.stat(filename).st_size)
    self.__f = open(filename, 'rb')

  def read(self, blocksize):
    return self.__f.read(blocksize)

  def __len__(self):
    return self.__size

将内容编码为base64

另一种方法是通过database64.b64encode进行编码并提供Content-Transfer-Type: base64标头。但是,此方法需要服务器端的支持。根据实现的不同,服务可以接受文件并错误地存储它,也可以返回HTTP 400。例如。 GitHub API不会抛出错误,但是上传的文件将被破坏。