HtmlUnit正在抛出内存并可能泄漏内存

时间:2011-09-23 21:53:11

标签: java selenium htmlunit

我在启用了javascript的情况下使用Selenium和HtmlUnitDriver,我得到Out Of Memory错误(我使用Java)。我只是浏览同一页面。我只使用一个GET命令。哪种解决办法可以克服这种情况?

3 个答案:

答案 0 :(得分:2)

我遇到了类似的问题。它最终成为自动加载帧的问题......一个无法禁用的功能。

看看这个:Extremely simple code not working in HtmlUnit

这可能会有所帮助。

<强>更新

当前版本的HtmlUnit是2.10。我开始在2.8版本中使用HtmlUnit,每个新版本最终都会占用更多内存。我得到了一个点,在启用javascript的情况下获取5个页面导致了2GB的进程。

从javascript的角度来看,有很多方法可以改善这种情况。但是,当您无法修改javascript(例如:如果您正在抓取某个网站)时,您的双手将被绑定。当然,禁用javascript是最好的方法。但是,这可能会导致获取的页面与预期的页面不同。

但是,我确实设法克服了这种情况。经过多次测试,我注意到它可能不是HtmlUnit的问题(我认为从一开始就是有罪的)。它似乎是JVM。从Sun的JVM更改为OpenJDK可以解决这个问题,而现在这个过程不需要200GB,而是需要200GB内存。我正在添加版本信息。

Sun的(Oracle)32位JVM:

$java -version
java version "1.6.0.26"
Java(TM) SE Runtime Environment (build 1.6.0_26-b03)
Java HotSpot(TM) Server VM (build 20.1-b02, mixed mode)

OpenJDK 32位JVM:

$java -version
java version "1.6.0_18"
OpenJDK Runtime Environment (IcedTea6 1.8.13) (6b18-1.8.13-0+squeeze2)
OpenJDK Server VM (build 14.0-b16, mixed mode)

操作系统:

$ uname -a
Linux vostro1015 2.6.32-5-686-bigmem #1 SMP Sun May 6 04:39:05 UTC 2012 i686 GNU/Linux

请分享您的经验。

答案 1 :(得分:1)

通过将其添加到启动运行Selenium的JVM的java命令行,为JVM提供更多内存:

-Xmx512m

此示例为JVM提供最多512 Mb。

这取决于你从哪里运行Selenium。如果是maven,可以将它添加到MAVEN_OPTS环境变量中,如果是Eclipse,则需要编辑测试类的运行配置等。

答案 2 :(得分:0)

与HtmlUnit相关:

不要忘记致电webClient.closeAllWindows();。我总是把它放在finally - 我使用webclient的区域周围。通过这种方式,可以确保所有javascript都已停止并且所有资源都已释放。

Aslo非常有用,是设置webClient

    webClient.setJavaScriptTimeout(JAVASCRIPT_TIMOUT);
    webClient.setTimeout(WEB_TIMEOUT);
    webClient.setCssEnabled(false);  // for most pages you do not need css to be enabled
    webClient.setThrowExceptionOnScriptError(false); // I never want Exceptions because of javascript

JAVASCRIPT_TIMOUT应该不会太长时间运行javascript可能是内存问题的原因。 WEB_TIMEOUT想想你想等多久才能达到最大值。