如何结合scrapy和htmlunit用javascript抓取网址

时间:2011-11-08 08:25:50

标签: javascript htmlunit scrapy

我正在使用Scrapy来抓取页面,但是,我无法使用javascript处理这些页面。 人们建议我使用htmlunit,所以我安装了它,但我根本不知道如何使用它。任何人都可以给我一个例子(scrapy + htmlunit)吗?非常感谢。

2 个答案:

答案 0 :(得分:13)

要使用javascript处理页面,您可以使用Webkit或Selenium。

这里有一些来自 snippets.scrapy.org 的片段:

Rendered/interactive javascript with gtk/webkit/jswebkit

Rendered Javascript Crawler With Scrapy and Selenium RC

答案 1 :(得分:1)

以下是在下载处理程序中间件中使用selenium和phantomjs无头webdriver的工作示例。

class JsDownload(object):

@check_spider_middleware
def process_request(self, request, spider):
    driver = webdriver.PhantomJS(executable_path='D:\phantomjs.exe')
    driver.get(request.url)
    return HtmlResponse(request.url, encoding='utf-8', body=driver.page_source.encode('utf-8'))

我希望能够告诉不同的蜘蛛使用哪个中间件,所以我实现了这个包装器:

def check_spider_middleware(method):
@functools.wraps(method)
def wrapper(self, request, spider):
    msg = '%%s %s middleware step' % (self.__class__.__name__,)
    if self.__class__ in spider.middleware:
        spider.log(msg % 'executing', level=log.DEBUG)
        return method(self, request, spider)
    else:
        spider.log(msg % 'skipping', level=log.DEBUG)
        return None

return wrapper

settings.py:

DOWNLOADER_MIDDLEWARES = {'MyProj.middleware.MiddleWareModule.MiddleWareClass': 500}

要使包装器工作,所有蜘蛛必须至少具有:

middleware = set([])

包含中间件:

middleware = set([MyProj.middleware.ModuleName.ClassName])

以这种方式而不是蜘蛛方式实现它的主要优点是你最终只能发出一个请求。例如,在reclosedev的第二个链接的解决方案中:下载处理程序处理请求,然后将响应交给蜘蛛。然后蜘蛛在其parse_page函数中提出了一个全新的请求 - 这是对同一内容的两个请求。

另一个例子:https://github.com/scrapinghub/scrapyjs

干杯!