我们使用NLTK从HTML页面中提取文本,但我们只想要大多数琐碎的文本分析,例如字数。
是否有更快的方式使用Python从HTML中提取可见文本?
在某些最低级别理解HTML(理想情况下是CSS),如可见/不可见节点,图像的替代文本等,将会更加出色。
答案 0 :(得分:2)
在我以前的工作场所遇到同样的问题。你想看看beautifulsoup。
from bs4 import BeautifulSoup
soup = BeautifulSoup(html)
print soup.text
您可以在此处找到其文档:https://www.crummy.com/software/BeautifulSoup/bs4/doc/
您可以根据属性忽略元素。至于理解外部样式表我不太确定。然而你可以在那里做什么以及不会太慢(取决于页面)的东西是研究用phantomjs之类的东西渲染页面然后选择渲染的文本:)