我有一个ruby19 scraper在浏览器中像ajax一样获取下一页,这些下一页是javascripts - 类似于:
...DOM.appendContent(this, HTML(\"\\u003cdiv class=\\\"...\\\">...
我正在寻找一些简单的方法来解决HTML内容如何能够将其提供给Nokogiri - 从<div class="...">...
获取\\u003cdiv class=\\\"...\\\">...
答案 0 :(得分:0)
尝试CGI::unescapeHTML(html_escaped_string)
有关更多信息,请查看Ruby文档: http://www.ruby-doc.org/stdlib-2.0/libdoc/cgi/rdoc/CGI.html#method-c-unescapeHTML