我正在废弃一个基于javascript的系统分页的网站,所以我想从@href属性中提取页码,这就是链接的外观:
<a href="javascript:AllerAPage('1', 'element_id');">Page 1</a>
答案 0 :(得分:2)
Scrapy selectors支持regular expressions:
sel.xpath('//a/@href').re(r"javascript:AllerAPage\('(\d+)',")
请注意,//a/@href
xpath表达式是一个示例 - 您可能有不同的表达式。
演示显示正则表达式的工作#39;提供:
>>> import re
>>> s = "javascript:AllerAPage('1', 'element_id');"
>>> re.search("javascript:AllerAPage\('(\d+)',", s).group(1)
'1'