Question

我想检索var modelCode的值。我做了这样的正则表达式函数，但它根本不起作用。我已经在下面发布了页面的结构。有人可以帮我吗？

regex2 = re.compile(r'"var modelCode"\s*:\s*(.+?\})', re.DOTALL)
source_json3 = response.xpath("//script[contains(., 'if(pageTrackName == 'product detail' || pageTrackName == 'generic product details')')]/text()").re_first(regex2)
source_json3 = re.sub(r'//[^\n]+', "", source_json3)

页面结构：

var pageTrackName = digitalData.page.pageInfo.pageTrack;
if(pageTrackName == "product detail" || pageTrackName == "generic product details"){ 
   var modelCode = "GT-P5100TSABTU";
   var displayName = "Galaxy Tab 2 (10.1, 3G)".replace(/(<([^>]+)>)/gi, "");
   digitalData.product.model_code = modelCode;
   digitalData.product.displayName = displayName;
   pageName += ":" + modelCode;

}

Answer 1

我认为，该代码位于<script>标记内。在这种情况下，您可以使用：

model_code = response.xpath('//script').re_first('modelCode.*?"(.*)"')

一些提示：

您无需编译正则表达式即可使用.re_first() / .re()。
如果使用括号，它将仅返回其中的匹配组。
有关parsel（scrapy从xml中提取数据的习惯）的更多信息：https://parsel.readthedocs.io/en/latest/usage.html

Answer 2

尝试使用正则表达式：(?<=var modelCode = ")(.+)(?=";)

Demo

我们不需要做re.sub，因为我们获得了ModelCode的值作为匹配项。

scrapy-如何使用正则表达式

2 个答案: