我知道很多次都会问这个问题,但对我来说没有问题。我尝试使用text2html,beautifulsoup,import re等解决方案。我尝试了所有示例代码但没有解决方案真的很好用。有些人根本没有工作,其他人忘了忽视" \ n"和javascript代码...
有人可以发布python程序的工作代码示例,只提取网站的纯文本吗?
THX!
答案 0 :(得分:1)
您可以使用BeautifulSoup迭代DOM并使用get_text()
方法编译全文内容。您可以轻松使用Python functions删除\n
个字符:
markup = '<a href="http://example.com/">\nI linked to <i>example.com</i>\n</a>'
soup = BeautifulSoup(markup)
soup.get_text()
u'\nI linked to example.com\n'
soup.i.get_text()
u'example.com'
并且可以选择剥离空格(即\n
):
# soup.get_text("|", strip=True)
u'I linked to|example.com'