使用python正则表达式分隔字符串

时间:2018-11-23 13:34:19

标签: regex python-3.x web-scraping

我正在尝试从Amazon产品页面中获取一些图像,我能够从一个字符串中提取页面中的所有图像,但是我对正则表达式的了解不足以将其分隔为不同的URL。

我的目标是获得一个数组/列表,其中包含所有具有“ hiRes”图像的图像,例如此图像。

https://images-na.ssl-images-amazon.com/images/I/715ljjcwtbL.SL1500.jpg

这是完整的字符串

所有图像都在“ colorImage”细分下。

return Card

1 个答案:

答案 0 :(得分:1)

如果您想使用正则表达式解决方案,可以尝试这样的匹配:r'\"hiRes\":\"(https.*?\.jpg)\"'

快速说明:

  • 匹配任何以"hiRes":"https开头并以.jpg"结尾的字符串
  • 使用捕获组来获取实际的URL(这假定所有URL均以https开头并以.jpg结尾

您可以将上述正则表达式与re.matchre.search配合使用,以期获得所需的内容。您应该可以从此处提取匹配组。请参阅https://docs.python.org/3/library/re.html#match-objects ID,您需要更多有关此信息。