我有一个在shell中运行的ScraPy代码,但是当我尝试将其导出到csv时,它会返回一个空文件。当我没有进入链接并尝试解析描述时它会导出数据,但是一旦我添加了解析内容的额外方法,它就无法工作。这是代码:
class MonsterSpider(CrawlSpider):
name = "monster"
allowed_domains = ["jobs.monster.com"]
base_url = "http://jobs.monster.com/v-technology.aspx?"
start_urls = [
"http://jobs.monster.com/v-technology.aspx"
]
for i in range(1,5):
start_urls.append(base_url + "page=" + str(i))
rules = (Rule(SgmlLinkExtractor(allow=("jobs.monster.com",))
, callback = 'parse_items'),)
def parse_items(self, response):
sel = Selector(response)
sites = sel.xpath('//div[@class="col-xs-12"]')
#items = []
for site in sites.xpath('.//article[@class="js_result_row"]'):
item = MonsterItem()
item['title'] = site.xpath('.//span[@itemprop = "title"]/text()').extract()
item['company'] = site.xpath('.//span[@itemprop = "name"]/text()').extract()
item['city'] = site.xpath('.//span[@itemprop = "addressLocality"]/text()').extract()
item['state'] = site.xpath('.//span[@itemprop = "addressRegion"]/text()').extract()
item['link'] = site.xpath('.//a[@data-m_impr_a_placement_id= "jsr"]/@href').extract()
follow = ''.join(item["link"])
request = Request(follow, callback = self.parse_dir_contents)
request.meta["item"] = item
yield request
#items.append(item)
#return items
def parse_dir_contents(self, response):
item = response.meta["item"]
item['desc'] = site.xpath('.//div[@itemprop = "description"]/text()').extract()
return item
取出parse_dir_contents并取消注释空的"列表"列表和"追加"代码是原始代码。
答案 0 :(得分:2)
好吧,正如@tayfun建议你应该使用response.xpath
或定义site
变量。
顺便说一句,您不需要使用sel = Selector(response)
。响应来自xpath
函数,无需将其覆盖到另一个选择器中。
然而主要问题是您限制蜘蛛的域名。您定义allowed_domains = ["jobs.monster.com"]
但是,如果您查看自定义follow
的{{1}}的网址,则可以看到它们类似于Request
或http://jobview.monster.com/
。在这种情况下,您的http://job-openings.monster.com
不会被执行(不允许使用域名),并且您的parse_dir_contents
不会被返回,因此您将无法获得任何结果。
将item
更改为
allowed_domains = ["jobs.monster.com"]
你会很好,你的应用程序将工作并返回项目。
答案 1 :(得分:0)
您的parse_dir_contents
方法出错:
def parse_dir_contents(self, response):
item = response.meta["item"]
item['desc'] = response.xpath('.//div[@itemprop=description"]/text()').extract()
return item
请注意response
的使用。我不知道你目前在哪里使用site
。
此外,尝试在发布问题时提供错误详细信息。写作"它无法正常工作"并没有多说。