在我的scrapy中,我只想在自定义URL的变量中使用html响应。
假设我有网址
url = "http://www.example.com"
现在我想获取该页面的html进行解析
pageHtml = scrapy.get(url)
我想要这样的东西
page = urllib2.urlopen('http://yahoo.com').read()
我在爬虫器上面无法使用的唯一问题是因为我的会话已经通过scrapy进行了身份验证,因此我无法使用任何其他函数来获取该函数的html
我不希望任何回调中的响应,只是直接在变量
中答案 0 :(得分:1)
基本上,您只需要为该问题中的代码添加相关导入即可。您还需要添加一个link
变量,该变量在该示例代码中使用但未定义。
import httplib
from scrapy.spider import BaseSpider
from scrapy.http import TextResponse
bs = BaseSpider('some')
# etc