Question

我正在尝试使用正则表达式从网站http://www.efsa.europa.eu/en/news中提取超链接文本列表（以及URL和日期）。

例如“动物和食物中的兽药残留：对安全性的依从性仍然很高”

但是，我的表达式返回的文本超出了要求，例如

<span class="field-content"><a href="/en/news/veterinary-drug-residues-animals-and-food-compliance-safety-levels-still-high">Veterinary drug residues in animals and food: compliance with safety levels still high"

这是我的代码：

import bs4, requests, re


res = requests.get('http://www.efsa.europa.eu/en/news')
res.raise_for_status()
soup = bs4.BeautifulSoup(res.text,'html.parser')
elems = soup.select('body > div.l-page > div > div > div > div > div > div > div.view-content.news-page-display')

a = str(elems[0])

text = re.findall(r'">(.+?)</a></span> </div>',a)

for i in range (len(text)):
    print(text[i]+'\n')

有人知道这是什么原因吗？我已经尝试了一个小时，现在放弃了:(

谢谢！

Python非贪婪正则表达式返回贪婪匹配

0 个答案: