如何使用scrapy抓取网站?

时间:2012-03-09 00:11:21

标签: web-crawler web-scraping scrapy

我打算写一个基于scrapy的Gui应用程序,用户输入网站URL,点击“抓取”按钮,然后整个网站将被抓取并存储在内置的scrapy-db中(源码)。

如何使用scrapy帮助我抓取网站?

1 个答案:

答案 0 :(得分:0)

嗯,你的问题没有得到很好的解决。你如何使用Scrapy取决于你。

这是Scrapy基本上做的事情:

1)网站具有树形结构a-> b,a-> c,a-> d,b-> e,c-> f ......等

2)Scrapy可以帮助您递归地爬树

3)在爬行时,Scrapy让你“我的”#13;供参考。为此,您需要学习XPath来定位和解析页面中的DOM值

http://www.w3schools.com/xpath/

4)解析值并将其存储在数据库中。

让我们准确了解您正在抓取的内容。如果您只是抓取并保存网页,那么您也可以选择[HTTrack] http://www.httrack.com等软件