如何在scrapy中提取精确标签

时间:2014-06-07 19:57:14

标签: python html web-scraping scrapy extract

我为scrapy编写了一个类,以获取页面的内容,如下所示:

#!/usr/bin/python
import html2text
from scrapy.spider import BaseSpider
from scrapy.selector import HtmlXPathSelector


class StockSpider(BaseSpider):
    name = "stock_spider"
    allowed_domains = ["www.hamshahrionline.ir"]
    start_urls = ["http://www.hamshahrionline.ir/details/261730/Health/publichealth"]

    def parse(self, response):
        hxs = HtmlXPathSelector(response)
#       sample = hxs.select("WhatShouldIputHere").extract()[AndHere]
        converter = html2text.HTML2Text()
        converter.ignore_links = True
        print converter.handle(sample)

我的主要问题是我评论它的状态。

如何为此设置路径和提取参数?

你能指导我并给我一些例子吗?

谢谢

1 个答案:

答案 0 :(得分:2)

首先,您需要确定要从页面中获取哪些数据,定义Item类和一组Field。然后,为了使用数据填充项目字段,您需要在蜘蛛的xpath方法中使用parse()表达式。

这是一个检测身体所有段落的例子(我想是所有新闻):

from scrapy.item import Item, Field
from scrapy.spider import Spider
from scrapy.selector import Selector


class MyItem(Item):
    content = Field()


class StockSpider(Spider):
    name = "stock_spider"
    allowed_domains = ["www.hamshahrionline.ir"]
    start_urls = ["http://www.hamshahrionline.ir/details/261730/Health/publichealth"]

    def parse(self, response):
        sel = Selector(response)
        paragraphs = sel.xpath("//div[@class='newsBodyCont']/p/text()").extract()
        for p in paragraphs:
            item = MyItem()
            item['content'] = p
            yield item

请注意,我使用Selector类,因为HtmlXPathSelector已弃用。另外,由于相同的原因,我使用xpath()方法而不是select()

另外,请注意,您最好在单独的python脚本中提取Item定义,以跟随Scrapy project structure

希望有所帮助。