应用错误收集

如何使用scrapy抓取网站？

时间：2012-03-09 00:11:21

标签： web-crawler web-scraping scrapy

我打算写一个基于scrapy的Gui应用程序，用户输入网站URL，点击“抓取”按钮，然后整个网站将被抓取并存储在内置的scrapy-db中（源码）。

如何使用scrapy帮助我抓取网站？

1 个答案:

答案 0 :(得分：0)

嗯，你的问题没有得到很好的解决。你如何使用Scrapy取决于你。

这是Scrapy基本上做的事情：

1）网站具有树形结构a-> b，a-> c，a-> d，b-> e，c-> f ......等

2）Scrapy可以帮助您递归地爬树

3）在爬行时，Scrapy让你“我的”＃13;供参考。为此，您需要学习XPath来定位和解析页面中的DOM值

http://www.w3schools.com/xpath/

4）解析值并将其存储在数据库中。

让我们准确了解您正在抓取的内容。如果您只是抓取并保存网页，那么您也可以选择[HTTrack] http://www.httrack.com等软件