到目前为止,我对Scrapy蜘蛛的体验是专注于废弃物。换句话说,我首先在目标网站上进行手动关键字搜索,返回包含关键字的http地址,例如http://www.simplyhired.com/search?q=Anesthesiologist
。这个网络链接将让我的蜘蛛"看到"我在浏览器中得到了什么。
现在我注意到这种方法在某些网站上不起作用,例如:http://www.physicianjobboard.com/
。关键字搜索适用于浏览器,但仅生成http://www.mdjobsite.com/Index2.cfm?Page=JobsSearchResults
的通用网络链接。此通用网络链接包含.cfm
文件,不会直接让我的蜘蛛知道我感兴趣的关键字。
一种效率低下的方法是废弃此网站上的所有帖子并过滤掉我需要的帖子。还有另一种方法可以让我的蜘蛛看到我在浏览器中得到的内容并进行有针对性的剪贴吗?我的猜测是让蜘蛛发送一个模仿关键字搜索的请求,然后分析响应页面。我没有这方面的经验。如果我的猜测是正确的,有人可以提供一些提示吗?