我正在使用Python 3.x
我想从几个网页中提取文字。什么是好的图书馆才能让我做到这一点?
谢谢, 百里
答案 0 :(得分:3)
http://www.crummy.com/software/BeautifulSoup/
以及开始使用的文档
http://www.crummy.com/software/BeautifulSoup/documentation.html
答案 1 :(得分:1)
mechanize
是一个很好的库,但遗憾的是还没有为python 3做好准备,但你可以看看lxml.html
答案 2 :(得分:1)
我建议使用Beautiful Soup,而不仅仅是通过返回的结构来处理类似于电子邮件地址的任何内容。
您也可以使用urllib2,但Beautiful Soup会为您解决许多语法问题。
答案 3 :(得分:1)
你没有用提取的文字说明你想要做什么,这会使你愿意花多少努力与大有所不同把它搞定。
如果您尝试获取网页的正文减去所有与网站相关的内容(非平凡任务),请查看{{ 3}}。它是用Java编写的,但它在从随机网页中获取基本文本方面做得非常出色。
接下来几周我的一个爱好是在Python中重新创建samppipe的核心逻辑。我们需要它为项目提供的功能,但不想把10吨重的岩石带到它周围。我非常肯定,一旦它相当稳定,我们将发布它。