ATTRIBUTEERROR:“ BYTES”对象没有ATTRIBUTE“ getheader”

时间:2018-12-05 23:57:41

标签: sql python-3.x web-crawler urllib

所以我试图运行网络爬虫的初始蜘蛛,但我不断收到AttributeError: 'bytes' object has no attribute 'getheader'错误消息。作为Spider类中的一种方法,我定义了一个函数,该函数使用getheader()来解析和提取html(以字符串形式)以访问标头信息,但我仍然不断收到错误消息。我可以使用什么属性代替getheader()get()来完成这项工作?请帮忙。这是代码:

@staticmethod
def gather_links(page_url):
    html_string=''
    response=urllib.request.urlopen(page_url, context=ctx).read()
    if 'text/html' in response.getheader('Content Type'):
        html_bytes= response.read()
        html_string=html_bytes.decode()
    finder= LinkFinder(spider.base_url, page_url)
    finder.feed(html_string)
    #except:
    #    print('Error: Can not crawl page')
    #    return set()

0 个答案:

没有答案