需要从文本中提取网站网址。你能告诉我我在哪里想念。
数据:
gmail.com
2.0
Dolphins.com.
B.TECH
62.1%.
github.com/XYZ
abcd.com
github.com/abcd
linkedin.com/in/abcd
abcd.wordpress.com/
https://xyz/stackoverflow.com
正则表达式模式:
urls = re.findall('(?:(?:https?|ftp):\/\/)?[\w+/\-?=%.]+\.[\w+/\-?=%.]+', text)
预期输出:
github.com/XYZ
abcd.com
github.com/abcd
linkedin.com/in/abcd
abcd.wordpress.com/
https://xyz/stackoverflow.com
当前输出:
它提取所有写在数据中的项目。有人可以告诉我正则表达式需要进行哪些更改才能获得预期的输出吗?
答案 0 :(得分:0)
我在regex下面使用了它,并在regex101.com中使用了
geom_ribbon
但是当我在代码中将其与re.findall()一起使用时,它将返回整个文本文件;如果我们将其与re.finditer()一起使用,则它表示json无法序列化。我试图在json中返回我的输出。那么在这里可以做什么?