尝试使用HtmlUnit解析ember应用程序时出错

时间:2015-03-19 09:16:42

标签: javascript htmlunit

所以我有一个Ember应用程序,我需要为抓取目的拍摄快照。 Ember应用程序使用Google+ API进行歌唱。它还在索引页面中嵌入了Youtube视频。我使用HtmlUnit v2.15

我使用以下代码初始化HtmlUnit:

// use the headless browser to obtain an HTML snapshot
final WebClient webClient = new WebClient(BrowserVersion.CHROME);
webClient.getOptions().setJavaScriptEnabled(true);
webClient.getOptions().setActiveXNative(true);
webClient.getOptions().setAppletEnabled(true);
webClient.getOptions().setCssEnabled(true);
webClient.getOptions().setUseInsecureSSL(true);
webClient.getOptions().setThrowExceptionOnScriptError(false);
HtmlPage page = webClient.getPage(originalUrl);

// important!  Give the headless browser enough time to execute JavaScript
// The exact time to wait may depend on your application.
webClient.waitForBackgroundJavaScript(5000);

// return the snapshot
logger.info("Writing snapshot for URL: " + originalUrl);
response.getWriter().write(page.asXml());
webClient.closeAllWindows();
  1. 现在,我在所有3个主要浏览器版本(CHROME,INTERNET_EXPLORER_11,FIREFOX_24)中遇到了一个问题:

    runtimeError: message=[An invalid or illegal selector was specified (selector: '*,:x' error: Invalid selector: *:x).] sourceName=[http://www.domain.com/assets/vendor.js] line=[1351] lineSource=[null] lineOffset=[0]
    
  2. 来自vendor.js的Snipet:

    // Opera 10-11 does not throw on post-comma invalid pseudos
    div.querySelectorAll("*,:x"); // line 1351 is the problem
    rbuggyQSA.push(",.*:");
    
    1. 然后,我只有 FIREFOX_24 INTERNET_EXPLORER_11 才会出现以下类型的错误:

      Invalid rpc message origin. https://accounts.google.com vs http://www.domain.com
      
      Invalid rpc message origin. https://apis.google.com vs http://www.domain.com
      
    2. 仅在 INTERNET_EXPLORER_11 中发生:

      runtimeError: message=[Automation server can't create object for 'ShockwaveFlash.ShockwaveFlash.7'.] sourceName=[https://s.ytimg.com/yts/jsbin/www-embed-player-vflWiCusa/www-embed-player.js] line=[59] lineSource=[null] lineOffset=[0]
      
    3. 最后,这只发生在 CHROME

      [com.gargoylesoftware.htmlunit.javascript.host.xml.XMLHttpRequest.open(XMLHttpRequest.java:534)]Unable to initialize XMLHttpRequest using malformed URL 'chrome-extension://boadgeojelhgndaghljhdicfkmllpafd/cast_sender.js'.
      
    4. 另外,如果我想检查网页浏览器中的HtmlUnit处理结果(在这种情况下是Chrome Linux),结果页面不会呈现,只是:

      This page contains the following errors:
      
      error on line 23 at column 5: Encoding error
      Below is a rendering of the page up to the first error.
      
      embed[type*="application/x-shockwave-flash"],embed[src*=".swf"],object[type*="application/x-shockwave-flash"],object[codetype*="application/x-shockwave-flash"],object[src*=".swf"],object[codebase*="swflash.cab"],object[classid*="D27CDB6E-AE6D-11cf-96B8-444553540000"],object[classid*="d27cdb6e-ae6d-11cf-96b8-444553540000"],object[classid*="D27CDB6E-AE6D-11cf-96B8-444553540000"]{    display: none !important;}
      

      更新

      我刚刚将HtmlUnit更新为v2.16

      根本没有呈现的页面部分是由flash插件集成引起的,这个集成似乎在v2.16中已经修复,如下所述,以及索引页面中存在的非UTF-8字符。所以部分我不好。因此页面按预期呈现而没有问题。仍然存在一些解析问题,如下所述。

      1. 未使用CHROME或FIREFOX_31修复。 INTERNET_EXPLORER_11
      2. 中的已修复
      3. 不固定。除了FIREFOX_31之外,现在也出现在CHROME中。 IE_11中已修复
      4. IE中的
      5. 已修复
      6. 已修复在CHROME。
      7. 新的问题与CHROME,FIREFOX_31:
      8.   

        Rhino运行时检测到对象   com.gargoylesoftware.htmlunit.ScriptException:异常调用   解决类com.gargoylesoftware.htmlunit.ScriptException在哪里   它期望String,Number,Boolean或Scriptable实例。请   检查你的代码是否缺少Context.javaToJS()调用。

        1. IE_11的新问题:
        2.   

          runtimeError:message = [指定了无效或非法的选择器   (选择器:':已启用'错误:语法错误)。]   sourceName = [http://www.domain.com/assets/vendor.js] line = [1346]   lineSource = [null] lineOffset = [0]

          第1346行的代码段:

          // FF 3.5 - :enabled/:disabled and hidden elements (hidden elements are still enabled)
                      // IE8 throws error here and will not see later tests
                      if ( !div.querySelectorAll(":enabled").length ) {
                          rbuggyQSA.push( ":enabled", ":disabled" );
                      }
          

          总之,在最新版本的HtmlUnit v2.16中,IE_11只有1个错误,而CHROME和FIREFOX_31只有3个。因此,我将切换到使用IE_11并将HtmlUnit的日志阈值更改为FATAL而不是错误的错误,以免与来自该1期的错误电子邮件发送垃圾邮件。它会更好,我会给你,但仍然不完美。也许与明年的更新? :)

1 个答案:

答案 0 :(得分:0)

要解决上述大多数问题,请将HtmlUnit更新为v2.16并将浏览器版本设置为INTERNET_EXPLORER_11。在我的情况下,只剩下1个错误。为了从我们的邮件程序日志中消除此错误,我将日志级别阈值设置为FATAL而不是ERROR。为此,请在log4j.properties文件中添加以下行。

log4j.logger.com.gargoylesoftware.htmlunit=FATAL

同时确保并仔细检查生成的XML中的所有字符是否都是UTF-8编码的。