Question

我需要一些指导来完善我的正则表达式。我有一个网页的来源，并想从页面中提取href。该表没有任何ID或类。我决定使用正则表达式，但是我的表达式似乎比我想要的更匹配。我尝试了以下方法：

http:\/\/(.*?)(?=.*showuri)(.*?)responseType=xml\">\/lnc\/

我的开头是 http：// ，结尾是 responseType = xml“> / lnc / ，我需要中间的位置包含 showuri < / strong>

我正在使用Python 3

Answer 1

我使用的方法如下：

doc = html.fromstring(text)
tr_elements = doc.xpath('//a/@href')
df = pd.DataFrame(tr_elements)
df.columns=['URL']

从这一点开始，我将删除不包含“ showuri”的行