我正在尝试在打印弹出消失(取消)后抓取加载的页面。
测试xpath到产品名称和ID(如截图所示)到目前为止任何可能的组合返回为空,我怀疑打印弹出窗口是原因。
有关如何绕过打印弹出窗口的任何提示将不胜感激。
谢谢:)
以下是DOM的截图:
答案 0 :(得分:1)
以下是获取您在屏幕截图中突出显示的文字的示例蜘蛛:
from scrapy.item import Item, Field
from scrapy.selector import Selector
from scrapy.spider import BaseSpider
class MarketItem(Item):
name = Field()
class MarketSpider(BaseSpider):
name = "market"
allowed_domains = ["mymarket.ge"]
start_urls = ["http://www.mymarket.ge/classified_details_print.php?product_id=5827165"]
def parse(self, response):
contacts = Selector(response)
item = MarketItem()
item['name'] = contacts.xpath('//td[@class="product_info_details_text"]/b/text()').extract()[0].strip()
return item
这会得到一个项目:
{'name': u'Nokia asha 515 dual sim'}
希望有所帮助。