应用错误收集

时间：2011-12-13 19:53:28

标签： python python-3.x beautifulsoup

我正在使用Python 3.x

我想从几个网页中提取文字。什么是好的图书馆才能让我做到这一点？

谢谢，百里

答案 0 :(得分：3)

以及开始使用的文档

答案 1 :(得分：1)

mechanize是一个很好的库，但遗憾的是还没有为python 3做好准备，但你可以看看lxml.html

答案 2 :(得分：1)

我建议使用Beautiful Soup，而不仅仅是通过返回的结构来处理类似于电子邮件地址的任何内容。

您也可以使用urllib2，但Beautiful Soup会为您解决许多语法问题。

答案 3 :(得分：1)

你没有用提取的文字说明你想要做什么，这会使你愿意花多少努力与大有所不同把它搞定。

如果您尝试获取网页的正文减去所有与网站相关的内容（非平凡任务），请查看{{ 3}}。它是用Java编写的，但它在从随机网页中获取基本文本方面做得非常出色。

接下来几周我的一个爱好是在Python中重新创建samppipe的核心逻辑。我们需要它为项目提供的功能，但不想把10吨重的岩石带到它周围。我非常肯定，一旦它相当稳定，我们将发布它。