Question

我们使用NLTK从HTML页面中提取文本，但我们只想要大多数琐碎的文本分析，例如字数。

是否有更快的方式使用Python从HTML中提取可见文本？

在某些最低级别理解HTML（理想情况下是CSS），如可见/不可见节点，图像的替代文本等，将会更加出色。

Answer 1

在我以前的工作场所遇到同样的问题。你想看看beautifulsoup。

from bs4 import BeautifulSoup
soup = BeautifulSoup(html)
print soup.text

您可以根据属性忽略元素。至于理解外部样式表我不太确定。然而你可以在那里做什么以及不会太慢（取决于页面）的东西是研究用phantomjs之类的东西渲染页面然后选择渲染的文本：）