我需要一些指导来完善我的正则表达式。我有一个网页的来源,并想从页面中提取href。该表没有任何ID或类。我决定使用正则表达式,但是我的表达式似乎比我想要的更匹配。 我尝试了以下方法:
http:\/\/(.*?)(?=.*showuri)(.*?)responseType=xml\">\/lnc\/
我的开头是 http:// ,结尾是 responseType = xml“> / lnc / ,我需要中间的位置包含 showuri < / strong>
我正在使用Python 3
答案 0 :(得分:0)
我使用的方法如下:
doc = html.fromstring(text)
tr_elements = doc.xpath('//a/@href')
df = pd.DataFrame(tr_elements)
df.columns=['URL']
从这一点开始,我将删除不包含“ showuri”的行