我正在用scrapy抓取网站,并且使用正则表达式过滤诸如时间和日期之类的信息。我得到了整个字符串,但还得到了返回的整个字符串的一部分。我如何排除字符串的这一部分以使整个字符串都返回?
class posSpider(scrapy.Spider):
start_urls = ["https://posaunenchor-eibach.jimdofree.com/"]
def parse(self, response):
zeitpattern = re.compile(r'\s((montag[s]?|dienstag[s]?|mittwoch[s]?|donnerstag[s]?|freitag[s]?|samstag[s]?|sonntag[s]?).*[0-2][0-9][.:][0-5][0-9].*[0-2][0-9][.:][0-5][0-9]\s*uhr?)', re.IGNORECASE)
zeit = zeitpattern.findall(inhalt)
print(zeit)
输出为:('dienstags von 20.00 Uhr bis 21.30 Uhr', 'dienstags')
为什么“地标”一个人又返回了一次?