我仍然是python的新手,所以我希望这个问题不是真的。
我越是谷歌网络抓取解决方案,我变得越困惑(尽管调查了很多树,但无法看到森林......)
我一直在阅读许多项目的文档,包括(但不限于) scrapy 机械化 spynner
但是我无法弄清楚我应该尝试使用哪种锤子。
我正在尝试抓取一个特定页面(www.schooldigger.com) 它使用asp,并且我需要能够模拟一些java脚本。
我知道这种问题不容易处理,所以我喜欢任何指导。
除了对可用选项的一般性讨论(以及不同项目之间的关系,如果可能),我还有几个具体问题
使用scrapy时,有没有办法避免定义要解析的“项目”,只需下载前几百页左右?我实际上并不想下载整个网站,但是,我希望能够在开发刮刀时看到正在下载哪些页面。
机械化,asp和javascript,请看我发布的问题,但没有看到任何答案, https://stackoverflow.com/questions/4249513/emulating-js-in-mechanize
为什么不构建某种实用程序(turbogears应用程序或浏览器插件),允许用户选择要跟随的链接和要以图形方式解析的项目?我所建议的只是坐在解析API上的某种gui。我不知道我是否具备创建这样一个项目的技术知识,但我不明白为什么它不可能,事实上,考虑到我对python的了解,它似乎相当可行。关于这类项目将面临哪些问题,可能会有一些反馈?
最重要的是,所有网络抓取工具都是“特定于网站”的吗?在我看来,我在我的代码中重新发明轮子..(但那可能是因为我不擅长编程)
任何人都有全功能刮刀的例子吗?文档中有很多例子(我们一直在研究),但它们似乎都只关注简单性,仅仅是为了说明软件包的使用,也许我会从一个更详细/更复杂的例子中受益。