Question

我正在尝试在打印弹出消失（取消）后抓取加载的页面。

测试xpath到产品名称和ID（如截图所示）到目前为止任何可能的组合返回为空，我怀疑打印弹出窗口是原因。

有关如何绕过打印弹出窗口的任何提示将不胜感激。

谢谢：）

以下是DOM的截图：

enter image description here

Answer 1

以下是获取您在屏幕截图中突出显示的文字的示例蜘蛛：

from scrapy.item import Item, Field
from scrapy.selector import Selector
from scrapy.spider import BaseSpider


class MarketItem(Item):
    name = Field()


class MarketSpider(BaseSpider):
    name = "market"
    allowed_domains = ["mymarket.ge"]
    start_urls = ["http://www.mymarket.ge/classified_details_print.php?product_id=5827165"]

    def parse(self, response):
        contacts = Selector(response)

        item = MarketItem()
        item['name'] = contacts.xpath('//td[@class="product_info_details_text"]/b/text()').extract()[0].strip()
        return item

这会得到一个项目：

{'name': u'Nokia asha 515 dual sim'}

希望有所帮助。

在抓取页面时绕过body unload =“window.print”

1 个答案: