使用Python 3.x从Web页面中提取文本

时间:2011-12-13 19:53:28

标签: python python-3.x beautifulsoup

我正在使用Python 3.x

我想从几个网页中提取文字。什么是好的图书馆才能让我做到这一点?

谢谢, 百里

4 个答案:

答案 0 :(得分:3)

答案 1 :(得分:1)

mechanize是一个很好的库,但遗憾的是还没有为python 3做好准备,但你可以看看lxml.html

答案 2 :(得分:1)

我建议使用Beautiful Soup,而不仅仅是通过返回的结构来处理类似于电子邮件地址的任何内容。

您也可以使用urllib2,但Beautiful Soup会为您解决许多语法问题。

答案 3 :(得分:1)

你没有用提取的文字说明你想要做什么,这会使你愿意花多少努力与有所不同把它搞定。

如果您尝试获取网页的正文减去所有与网站相关的内容(非平凡任务),请查看{{ 3}}。它是用Java编写的,但它在从随机网页中获取基本文本方面做得非常出色。

接下来几周我的一个爱好是在Python中重新创建samppipe的核心逻辑。我们需要它为项目提供的功能,但不想把10吨重的岩石带到它周围。我非常肯定,一旦它相当稳定,我们将发布它。