我打算写一个基于scrapy的Gui应用程序,用户输入网站URL,点击“抓取”按钮,然后整个网站将被抓取并存储在内置的scrapy-db中(源码)。
如何使用scrapy帮助我抓取网站?
答案 0 :(得分:0)
嗯,你的问题没有得到很好的解决。你如何使用Scrapy取决于你。
这是Scrapy基本上做的事情:
1)网站具有树形结构a-> b,a-> c,a-> d,b-> e,c-> f ......等
2)Scrapy可以帮助您递归地爬树
3)在爬行时,Scrapy让你“我的”#13;供参考。为此,您需要学习XPath来定位和解析页面中的DOM值
http://www.w3schools.com/xpath/
4)解析值并将其存储在数据库中。
让我们准确了解您正在抓取的内容。如果您只是抓取并保存网页,那么您也可以选择[HTTrack] http://www.httrack.com等软件