使用正则表达式模式从文本文件中提取网站详细信息

时间:2019-08-27 07:30:18

标签: regex python-3.7

需要从文本中提取网站网址。你能告诉我我在哪里想念。

数据:

gmail.com

2.0

Dolphins.com.

B.TECH

62.1%.

github.com/XYZ

abcd.com

github.com/abcd

linkedin.com/in/abcd

abcd.wordpress.com/

https://xyz/stackoverflow.com

正则表达式模式:

urls = re.findall('(?:(?:https?|ftp):\/\/)?[\w+/\-?=%.]+\.[\w+/\-?=%.]+', text)

预期输出:

github.com/XYZ

abcd.com

github.com/abcd

linkedin.com/in/abcd

abcd.wordpress.com/

https://xyz/stackoverflow.com

当前输出:

它提取所有写在数据中的项目。有人可以告诉我正则表达式需要进行哪些更改才能获得预期的输出吗?

1 个答案:

答案 0 :(得分:0)

我在regex下面使用了它,并在regex101.com中使用了

geom_ribbon

但是当我在代码中将其与re.findall()一起使用时,它将返回整个文本文件;如果我们将其与re.finditer()一起使用,则它表示json无法序列化。我试图在json中返回我的输出。那么在这里可以做什么?