我有一个使用Scrapy的Python 3代码。这是代码的一部分:
import scrapy
...
class MySpider(scrapy.Spider):
name = 'example.com'
allowed_domains = ['example.com']
start_urls = [
'http://www.example.com/1.html',
'http://www.example.com/2.html',
]
def parse(self, response):
...
image_link = self.get_image_link(response)
try:
item = response.xpath("//*[@id='theid1']").extract_first()
except:
item = response.xpath("//*[@id='theid2']").extract_first()
...
如果我正常运行代码,item
中就没有任何内容,但如果我在这一行上设置断点:
image_link = self.get_image_link(response)
然后逐步运行代码,然后我在item
中有值。
我应该注意一个时间问题吗?这与Scrapy的异步方式有关吗?如何解决这个问题?