如何从硬编码的URL中获取scrapy中解析的html

时间:2012-12-19 00:59:15

标签: python urllib2 scrapy

在我的scrapy中,我只想在自定义URL的变量中使用html响应。

假设我有网址

url = "http://www.example.com"

现在我想获取该页面的html进行解析

pageHtml = scrapy.get(url)

我想要这样的东西

page = urllib2.urlopen('http://yahoo.com').read()

我在爬虫器上面无法使用的唯一问题是因为我的会话已经通过scrapy进行了身份验证,因此我无法使用任何其他函数来获取该函数的html

我不希望任何回调中的响应,只是直接在变量

1 个答案:

答案 0 :(得分:1)

基本上,您只需要为该问题中的代码添加相关导入即可。您还需要添加一个link变量,该变量在该示例代码中使用但未定义。

import httplib
from scrapy.spider import BaseSpider
from scrapy.http import TextResponse

bs = BaseSpider('some')
# etc