Scrapy:将response.body保存为html文件?

时间:2017-09-06 05:15:11

标签: python django scrapy web-crawler

我的蜘蛛有效,但我无法下载我在.html文件中抓取的网站正文。如果我写self.html_fil.write('test')那么它工作正常。我不知道如何将tulpe转换成字符串。

我使用Python 3.6

蜘蛛:

class ExampleSpider(scrapy.Spider):
    name = "example"
    allowed_domains = ['google.com']
    start_urls = ['http://google.com/']

    def __init__(self):
        self.path_to_html = html_path + 'index.html'
        self.path_to_header = header_path + 'index.html'
        self.html_file = open(self.path_to_html, 'w')

    def parse(self, response):
        url = response.url
        self.html_file.write(response.body)
        self.html_file.close()
        yield {
            'url': url
        }

Tracktrace:

Traceback (most recent call last):
  File "c:\python\python36-32\lib\site-packages\twisted\internet\defer.py", line
 653, in _runCallbacks
    current.result = callback(current.result, *args, **kw)
  File "c:\Users\kv\AtomProjects\example_project\example_bot\example_bot\spiders
\example.py", line 35, in parse
    self.html_file.write(response.body)
TypeError: write() argument must be str, not bytes

3 个答案:

答案 0 :(得分:7)

实际问题是你得到字节码。您需要将其转换为字符串格式。有许多方法可以将字节转换为字符串格式。  你可以使用

  self.html_file.write(response.body)

而不是

  self.html_file.write(response.text)

你也可以使用

{{1}}

答案 1 :(得分:5)

正确的方法是使用response.text,而不是response.body.decode("utf-8")。引用documentation

  

请记住,Response.body始终是一个字节对象。如果您希望unicode版本使用TextResponse.text(仅在TextResponse和子类中可用)。

  

text:响应正文,作为unicode。

     

response.body.decode(response.encoding)相同,但结果在第一次调用后缓存,因此您可以多次访问response.text而无需额外开销。

     

注意:unicode(response.body)不是将响应正文转换为unicode的正确方法:您将使用系统默认编码(通常为ascii)而不是响应编码。

答案 2 :(得分:1)

考虑到上面的回答,并通过添加with语句使它尽可能多地成为 pythonic ,示例应重写为:

class ExampleSpider(scrapy.Spider):
    name = "example"
    allowed_domains = ['google.com']
    start_urls = ['http://google.com/']

    def __init__(self):
        self.path_to_html = html_path + 'index.html'
        self.path_to_header = header_path + 'index.html'

    def parse(self, response):
        with open(self.path_to_html, 'w') as html_file:
            html_file.write(response.text)
        yield {
            'url': response.url
        }

但是html_file仅可通过parse方法访问。