关于python抓包的指导

时间:2010-11-24 18:59:04

标签: python mechanize scrapy scrape

我仍然是python的新手,所以我希望这个问题不是真的。

我越是谷歌网络抓取解决方案,我变得越困惑(尽管调查了很多树,但无法看到森林......)

我一直在阅读许多项目的文档,包括(但不限于) scrapy 机械化 spynner

但是我无法弄清楚我应该尝试使用哪种锤子。

我正在尝试抓取一个特定页面(www.schooldigger.com) 它使用asp,并且我需要能够模拟一些java脚本。

我知道这种问题不容易处理,所以我喜欢任何指导。

除了对可用选项的一般性讨论(以及不同项目之间的关系,如果可能),我还有几个具体问题

  1. 使用scrapy时,有没有办法避免定义要解析的“项目”,只需下载前几百页左右?我实际上并不想下载整个网站,但是,我希望能够在开发刮刀时看到正在下载哪些页面。

  2. 机械化,asp和javascript,请看我发布的问题,但没有看到任何答案, https://stackoverflow.com/questions/4249513/emulating-js-in-mechanize

  3. 为什么不构建某种实用程序(turbogears应用程序或浏览器插件),允许用户选择要跟随的链接和要以图形方式解析的项目?我所建议的只是坐在解析API上的某种gui。我不知道我是否具备创建这样一个项目的技术知识,但我不明白为什么它不可能,事实上,考虑到我对python的了解,它似乎相当可行。关于这类项目将面临哪些问题,可能会有一些反馈?

  4. 最重要的是,所有网络抓取工具都是“特定于网站”的吗?在我看来,我在我的代码中重新发明轮子..(但那可能是因为我不擅长编程)

  5. 任何人都有全功能刮刀的例子吗?文档中有很多例子(我们一直在研究),但它们似乎都只关注简单性,仅仅是为了说明软件包的使用,也许我会从一个更详细/更复杂的例子中受益。

  6. 谢谢你的想法。

1 个答案:

答案 0 :(得分:2)

要进行完整的浏览器互动,最好使用Selenium-RC

这有一个python驱动程序,您可以编写浏览器脚本来“测试”互联网上的任何网站