如何使用python spider下载doc文件

时间:2015-12-07 00:05:08

标签: python web-crawler

我想在网站上下载一个doc文件抛出python spider。我有文件url,这意味着我在登录后将URL输入浏览器后会自动下载文件。如果我没有登录,则会返回404错误。我只有konw urllib.urlretrieve(url, 'path/filename')可以下载,但我不知道如何使用urlretrieve模拟登录状态。或者还有其他方法可以下载吗?请帮帮我,谢谢。

1 个答案:

答案 0 :(得分:0)

也许你可以尝试grab框架(其他人可以这样做,这只是一个例子),很容易填写输入并提交:

from grab import Grab
import logging

logging.basicConfig(level=logging.DEBUG)
g = Grab()
g.go('https://github.com/login')
g.set_input('login', '***')
g.set_input('password', '***')
g.submit()

然后您可以下载您的doc文件。