所以我试图运行网络爬虫的初始蜘蛛,但我不断收到AttributeError: 'bytes' object has no attribute 'getheader'
错误消息。作为Spider类中的一种方法,我定义了一个函数,该函数使用getheader()
来解析和提取html(以字符串形式)以访问标头信息,但我仍然不断收到错误消息。我可以使用什么属性代替getheader()
或get()
来完成这项工作?请帮忙。这是代码:
@staticmethod
def gather_links(page_url):
html_string=''
response=urllib.request.urlopen(page_url, context=ctx).read()
if 'text/html' in response.getheader('Content Type'):
html_bytes= response.read()
html_string=html_bytes.decode()
finder= LinkFinder(spider.base_url, page_url)
finder.feed(html_string)
#except:
# print('Error: Can not crawl page')
# return set()