我正在尝试使用Scrapy(http://scrapy.org/)获取'script'标签的'src'值。
我可以为图像做到这一点:
for sel in response.xpath('//img'):
item = elSRC()
item['src'] = sel.xpath('@src').extract()
yield item
示例输出:
{"src": ["http://ecx.images-amazon.com/images/I/51UBHVgfefL._AC_SX75_.jpg"]},
但是,脚本标记的相同内容似乎不起作用:
for sel in response.xpath('//script'):
item = elSRC()
item['src'] = sel.xpath('@src').extract()
yield item
示例输出:
{"src": []},
我手动确认相关页面上的脚本标签确实存在'src'值。我也尝试过使用Scrapy shell的其他一些方法无济于事。
有没有其他人能够使用Scrapy获取'script'标签的'src'值,如果是这样,你是怎么做到的?
谢谢!
答案 0 :(得分:0)
Uggg。在可怕的格式化页面中,我看着'src'似乎已经填充了。 Paul Trmbrth的评论促使我再次检查事物并设置一个更简单的测试页来验证我的发现。我相信这已经解决了。故事的道德:在处理复杂的生产项目之前,使用干净,易于阅读的代码进行测试,并设置简单的环境。