有没有办法在python中使用可读性(文本提取算法)和自定义算法从文本中提取链接?

时间:2011-01-03 23:20:39

标签: python html-content-extraction text-extraction

有没有办法在python中使用可读性(文本提取算法)和自定义算法从文本中提取链接?

我想找出一种方法来提取文本正文中的链接。

1。)我在python https://github.com/gfxmonk/python-readability

中使用了可读性

2。)我想以某种方式将提取的文本与原始的html文本进行比较,以便在文章的实际主体中提取链接。

1 个答案:

答案 0 :(得分:2)

好吧,它看起来像是返回一个BeautifulSoup树。所以你应该能够做到这样的事情:

article = page.summary()   # Extract article using readability
article.findAll("a")       # Return a list of all links in the article