使用Python模拟浏览器资源扩展行为

时间:2010-06-15 09:34:27

标签: python html http scrapy web-scraping

我正在寻找一种模拟浏览器资源扩展行为的方法。

我想解决的问题如下:

  • 访问初始网址(例如http://example.dmn/index.htm
  • 解析收到的html响应(例如index.htm)
  • 查找浏览器因索引解析而获取的资源,例如:
    • 图片
    • Flash
    • 嵌入式视频/音频
    • Frames / iFrames
  • 对每个找到的新资源递归重复此过程

我不希望关注链接(href),只关注首次访问该页面时浏览器自动获取的页面资源。

您是否有建议如何进行此模拟?

是否有可能有用的Python项目/库?

由于

3 个答案:

答案 0 :(得分:1)

您可能希望查看允许您在Py​​thon中为Web应用程序编写测试的Windmill Testing Framework

答案 1 :(得分:1)

您可能希望查看spider.pyrobotparser。除非那些自动做你想做的事,你可以用BeautifulSoup自己深入研究HTML汤。

答案 2 :(得分:1)

您可能需要查看Scrapy

它可能无法提供您需要的所有确切功能,但可以轻松扩展以实现此功能。