在抓取页面时绕过body unload =“window.print”

时间:2014-03-17 13:29:28

标签: python-2.7 scrapy

我正在尝试在打印弹出消失(取消)后抓取加载的页面。

测试xpath到产品名称和ID(如截图所示)到目前为止任何可能的组合返回为空,我怀疑打印弹出窗口是原因。

有关如何绕过打印弹出窗口的任何提示将不胜感激。

谢谢:)

以下是DOM的截图:

enter image description here

1 个答案:

答案 0 :(得分:1)

以下是获取您在屏幕截图中突出显示的文字的示例蜘蛛:

from scrapy.item import Item, Field
from scrapy.selector import Selector
from scrapy.spider import BaseSpider


class MarketItem(Item):
    name = Field()


class MarketSpider(BaseSpider):
    name = "market"
    allowed_domains = ["mymarket.ge"]
    start_urls = ["http://www.mymarket.ge/classified_details_print.php?product_id=5827165"]

    def parse(self, response):
        contacts = Selector(response)

        item = MarketItem()
        item['name'] = contacts.xpath('//td[@class="product_info_details_text"]/b/text()').extract()[0].strip()
        return item

这会得到一个项目:

{'name': u'Nokia asha 515 dual sim'}

希望有所帮助。