如何使用html2text从html页面提取文本

时间:2019-05-08 17:34:16

标签: python html-to-text

我可以使用BeautifulSoup提取文本,但是对于某些html页面,我无法准确地细分文本。我有兴趣尝试使用html2text从html页面提取文本。

但是我无法找到使用html2text从html页面提取文本的代码。

html2text文档页面上的代码

import html2text
h = html2text.HTML2Text()
h.ignore_links = True
print h.handle("<p>Hello, <a href='http://earth.google.com/'>world</a>!")

如何从网页中提取文本?文档页面没有明确指定。

0 个答案:

没有答案