我可以使用BeautifulSoup提取文本,但是对于某些html页面,我无法准确地细分文本。我有兴趣尝试使用html2text从html页面提取文本。
但是我无法找到使用html2text从html页面提取文本的代码。
html2text
文档页面上的代码
import html2text
h = html2text.HTML2Text()
h.ignore_links = True
print h.handle("<p>Hello, <a href='http://earth.google.com/'>world</a>!")
如何从网页中提取文本?文档页面没有明确指定。