如何使用python提取网站的纯文本?

时间:2015-08-27 17:02:20

标签: python

我知道很多次都会问这个问题,但对我来说没有问题。我尝试使用text2html,beautifulsoup,import re等解决方案。我尝试了所有示例代码但没有解决方案真的很好用。有些人根本没有工作,其他人忘了忽视" \ n"和javascript代码...

有人可以发布python程序的工作代码示例,只提取网站的纯文本吗?

THX!

1 个答案:

答案 0 :(得分:1)

您可以使用BeautifulSoup迭代DOM并使用get_text()方法编译全文内容。您可以轻松使用Python functions删除\n个字符:

markup = '<a href="http://example.com/">\nI linked to <i>example.com</i>\n</a>'

soup = BeautifulSoup(markup)

soup.get_text()
u'\nI linked to example.com\n'

soup.i.get_text()
u'example.com'

并且可以选择剥离空格(即\n):

# soup.get_text("|", strip=True)
u'I linked to|example.com'