Question

我知道很多次都会问这个问题，但对我来说没有问题。我尝试使用text2html，beautifulsoup，import re等解决方案。我尝试了所有示例代码但没有解决方案真的很好用。有些人根本没有工作，其他人忘了忽视＆＃34; \ n＆＃34;和javascript代码...

有人可以发布python程序的工作代码示例，只提取网站的纯文本吗？

THX！

Answer 1

您可以使用BeautifulSoup迭代DOM并使用get_text()方法编译全文内容。您可以轻松使用Python functions删除\n个字符：

markup = '<a href="http://example.com/">\nI linked to <i>example.com</i>\n</a>'

soup = BeautifulSoup(markup)

soup.get_text()
u'\nI linked to example.com\n'

soup.i.get_text()
u'example.com'

并且可以选择剥离空格（即\n）：

# soup.get_text("|", strip=True)
u'I linked to|example.com'

如何使用python提取网站的纯文本？

1 个答案: