如何使用re.findall获取url字符串?

时间:2016-04-18 07:46:01

标签: python regular-language

"foldGroup.registerImage({ domId: 'listimg7', srcUrl: 'https://ec.yimg.com/ec/?url=https%3A%2F%2Fd3vv6xw699rjh3.cloudfront.net%2F9f689b-1904037587_1_160.jpg&t=1460964135&ttl=43200&maxWidth=160&maxHeight=160&sig=QSY1BP0sCebMxqEN6irjXQ--~C' });"

这是来自雅虎购物页面的html的一部分,例如:
https://shopping.yahoo.com/womens-intimate-apparel/?b=3937

我的问题是如何使用Python re.findall()查找所有img网址?

1 个答案:

答案 0 :(得分:2)

re.findall(r"'https://.*?'", part_of_html)
  

re.findall(pattern, string, flags=0) 返回字符串中pattern的所有非重叠匹配,作为字符串列表。从左到右扫描字符串,并按找到的顺序返回匹配项。如果模式中存在一个或多个组,则返回组列表;如果模式有多个组,这将是一个元组列表。结果中包含空匹配,除非它们触及另一场比赛的开头。