处理Scrapy Div Class

时间:2013-01-24 16:15:37

标签: python scrapy

我是Scrapy的新手,也是python的新手。我正在尝试编写一个刮刀,它将提取文章标题,链接和文章描述几乎像网页的RSS提要,以帮助我完成我的论文。我编写了下面的刮刀,当我运行它并将其导出为.txt时,它会变回空白。我相信我需要添加一个Item Loader,但我并不积极。

Items.py

from scrapy.item import Item, Field

class NorthAfricaItem(Item):
    title = Field()
    link = Field()
    desc = Field()
    pass

蜘蛛

from scrapy.spider import BaseSpider
from scrapy.selector import HtmlXPathSelector
from northafricatutorial.items import NorthAfricaItem

class NorthAfricaItem(BaseSpider):
   name = "northafrica"
   allowed_domains = ["http://www.north-africa.com/"]
   start_urls = [
       "http://www.north-africa.com/naj_news/news_na/index.1.html",
   ]

 def parse(self, response):
 hxs = HtmlXPathSelector(response)
 sites = hxs.select('//ul/li')
 items = []
 for site in sites:
     item = NorthAfricaItem()
     item['title'] = site.select('a/text()').extract()
     item['link'] = site.select('a/@href').extract()
     item['desc'] = site.select('text()').extract()
     items.append(item)
 return items

更新

感谢Talvalin的帮助,另外还有一些麻烦,我能够解决问题。我使用的是我在网上找到的股票脚本。然而,一旦我使用了外壳,我就能找到正确的标签来获得我需要的东西。我最终得到了:

from scrapy.spider import BaseSpider
from scrapy.selector import HtmlXPathSelector
from northafrica.items import NorthAfricaItem

class NorthAfricaSpider(BaseSpider):
   name = "northafrica"
   allowed_domains = ["http://www.north-africa.com/"]
   start_urls = [
       "http://www.north-africa.com/naj_news/news_na/index.1.html",
   ]

   def parse(self, response):
       hxs = HtmlXPathSelector(response)
       sites = hxs.select('//ul/li')
       items = []
       for site in sites:
           item = NorthAfricaItem()
           item['title'] = site.select('//div[@class="short_holder"]    /h2/a/text()').extract()
       item['link'] = site.select('//div[@class="short_holder"]/h2/a/@href').extract()
       item['desc'] = site.select('//span[@class="summary"]/text()').extract()
       items.append(item)
   return items

如果有人在这里看到任何东西我做错了让我知道......但它确实有效。

1 个答案:

答案 0 :(得分:1)

关于此代码的注意事项是它运行时出错。尝试通过命令行运行蜘蛛,您将看到以下内容:

        exceptions.TypeError: 'NorthAfricaItem' object does not support item assignment

2013-01-24 16:43:35+0000 [northafrica] INFO: Closing spider (finished)

发生此错误的原因是因为您已经为您的蜘蛛和您的项目类赋予了相同的名称:NorthAfricaItem

在您的蜘蛛代码中,当您创建NorthAfricaItem的实例以分配内容(如title,link和desc)时,蜘蛛版本优先于项目版本。由于NorthAfricaItem的蜘蛛版本实际上不是Item的类型,因此项目分配失败。

要解决此问题,请将您的蜘蛛类重命名为NorthAfricaSpider,并解决问题。