Python正则表达式匹配开始和结束字符串,并且必须包含特定的单词

时间:2019-11-28 03:43:46

标签: python regex python-3.x regex-group

我需要一些指导来完善我的正则表达式。我有一个网页的来源,并想从页面中提取href。该表没有任何ID或类。我决定使用正则表达式,但是我的表达式似乎比我想要的更匹配。 我尝试了以下方法:

http:\/\/(.*?)(?=.*showuri)(.*?)responseType=xml\">\/lnc\/

我的开头是 http:// ,结尾是 responseType = xml“> / lnc / ,我需要中间的位置包含 showuri < / strong>

我正在使用Python 3

1 个答案:

答案 0 :(得分:0)

我使用的方法如下:

doc = html.fromstring(text)
tr_elements = doc.xpath('//a/@href')
df = pd.DataFrame(tr_elements)
df.columns=['URL']

从这一点开始,我将删除不包含“ showuri”的行