Python屏幕刮整个网站

时间:2011-09-30 20:06:56

标签: python html screen-scraping beautifulsoup

我想制作一个小程序,它将使用来自任何网站的每个单词 - 含义词 它应该是在python中,我听说过BeautifulSoup,但我不太清楚如何将它用于此目的......小教程? :p 还是像正则表达式一样简单?喜欢: re.compile('<.*>(.*)<.*>') 所以括号之间的一切? 新行和内容已经完成;)

提前帮忙,对不起的小英语抱歉...

2 个答案:

答案 0 :(得分:1)

Scrapy可让网络抓取变得轻松。它还有很好的文档,scrapy startproject命令将为您构建一个骨架项目。

答案 1 :(得分:1)

Mechanize是一个python库,允许您执行http请求,甚至提供一些解析html并提取您正在寻找的数据的能力。它的主要特点是它可以像浏览器一样处理身份验证和cookie等事情。

使用XML / HTML时,正则表达式并不理想(你会看到)。如果您更喜欢解析库,可以将BeautifulSoup与mechanize结合使用。学习XPath之类的东西也可以让你的生活变得更简单。

机械化和BeautifulSoup都有教程,所以开始阅读一些代码!