应用错误收集

时间：2010-06-15 09:34:27

标签： python html http scrapy web-scraping

我正在寻找一种模拟浏览器资源扩展行为的方法。

我想解决的问题如下：

我不希望关注链接（href），只关注首次访问该页面时浏览器自动获取的页面资源。

您是否有建议如何进行此模拟？

是否有可能有用的Python项目/库？

由于

答案 0 :(得分：1)

您可能希望查看允许您在Python中为Web应用程序编写测试的Windmill Testing Framework。

答案 1 :(得分：1)

您可能希望查看spider.py和robotparser。除非那些自动做你想做的事，你可以用BeautifulSoup自己深入研究HTML汤。

答案 2 :(得分：1)

您可能需要查看Scrapy。

它可能无法提供您需要的所有确切功能，但可以轻松扩展以实现此功能。