Question

在我的scrapy中，我只想在自定义URL的变量中使用html响应。

假设我有网址

url = "http://www.example.com"

现在我想获取该页面的html进行解析

pageHtml = scrapy.get(url)

我想要这样的东西

page = urllib2.urlopen('http://yahoo.com').read()

我在爬虫器上面无法使用的唯一问题是因为我的会话已经通过scrapy进行了身份验证，因此我无法使用任何其他函数来获取该函数的html

我不希望任何回调中的响应，只是直接在变量

中

Answer 1

基本上，您只需要为该问题中的代码添加相关导入即可。您还需要添加一个link变量，该变量在该示例代码中使用但未定义。

import httplib
from scrapy.spider import BaseSpider
from scrapy.http import TextResponse

bs = BaseSpider('some')
# etc