我设法找到了我想要使用调试蜘蛛隔离的属性,但我不确定是否正确地将它合并到我的蜘蛛中。当蜘蛛运行时,我没有收到明确的错误消息,因此我认为我刚刚进入了选择器。
我抓取的网站是" http://www.smiling-moose.com/events/index.php" 我输入调试蜘蛛的路径命令是" response.xpath(' // div [@class =" show_sec_button"] / text()')&#34 ;,这引起了我正在寻找的确切反应。
这是我的蜘蛛:
import scrapy
from smiling_moose.items import SMItem
class Smspider (scrapy.Spider):
name = "smspider"
allowed_domains = ["http://www.smiling-moose.com/index.php"]
start_urls = [
"http://www.smiling-moose.com/events/index.php",
]
def parse(self, response):
for sel in response.xpath('//div'):
item = SMItem()
item['desc'] = response.xpath('//*[@class="show_sec_band"]/text()').extract()
这是我的Items.py:
import scrapy
class SMItem(scrapy.Item):
desc = scrapy.Field()
蜘蛛有什么需要改变的吗?如果需要,我可以发布命令提示错误。
谢谢
答案 0 :(得分:0)
首先更改allowed_domains
:
allowed_domains = ["smiling-moose.com"]
其次,退回项目:
item['desc'] = response.xpath('//*[@class="show_sec_band"]/text()').extract()
yield item