我试图从文本中找到完整的Github网址。但它只返回第一个匹配而不是完整的URL。我在https://pythex.org/上测试了我的正则表达式,它显示了正确的匹配结果。
test = 'https://www.github.com/whoisthere'
GITHUB_PATTERN = r"(http(s?):\/\/|[a-zA-Z0-9\-]+\.|[github])[github\/~\-]+\.[a-zA-Z0-9\/~\-_,&=\?\.;]+[^\.,\s<]"
GITHUB_REGEX = re.compile(GITHUB_PATTERN,re.IGNORECASE)
github_regex_result = re.findall(GITHUB_REGEX,test)
if len(github_regex_result) > 0:
print("GITHUB : {}".format(github_regex_result[0]))
else:
print(None)
它返回以下
GITHUB : ('https://', 's')
我正在尝试获取完整的网址
GITHUB : ('https://www.github.com/whoisthere')