如何使用casperjs从嵌入式脚本中检索文本?

时间:2016-08-23 18:51:08

标签: javascript web-scraping phantomjs casperjs

html元素是

<script>
window.sawXmlIslandidClientStateXml="<nqw xmlns:saw=\x22com.siebel.analytics.web/report/v1.1\x22 xmlns:xsi=\x22http://www.w3.org/2001/XMLSchema-instance\x22 xmlns:sawst=\x22com.siebel.analytics.web/state/v1\x22>\u003csawst:clientState>\u003csawst:stateRef>\u003csawst:envState xmlns:sawst=\"com.siebel.analytics.web/state/v1\" xmlns:xsi=\"http://www.w3.org/2001/XMLSchema-instance\" xmlVersion=\"200811100\">\u003csawst:container cid=\"d:dashboard\" xsi:type=\"sawst:topLevelStateContainer\">\u003csawst:container cid=\"p:mco0pb0nob7sqjvg\" xsi:type=\"sawst:page\">\u003csawst:container cid=\"s:42263r43nih80fd1\" xsi:type=\"sawst:section\" rendered=\"true\">\u003csawst:container cid=\"g:c452lvndqssjqa45\" xsi:type=\"sawst:dashprompt\" links=\"-\" promptAutoCompleteState=\"off\"/>\u003c/sawst:container>\u003csawst:container cid=\"r:q4g2fiisnvk4nusv\" xsi:type=\"sawst:report\" links=\"fd\" defaultView=\"compoundView!1\" searchId=\"fvup02s9lt0o6urkplv4pqa5ri\" folder=\"/shared/Sales\" itemName=\"All Sales and Inventory Data\"/>\u003csawst:container cid=\"f:dpstate\" xsi:type=\"sawst:dashpromptstate\" statepoolId=\"ih2bj24l46bkgt558qsef04jeq\"/>\u003csawst:container cid=\"s:b0003tc6gnahvsfq\" xsi:type=\"sawst:section\" rendered=\"true\"/>\u003csawst:container cid=\"s:c5j314uterctfb08\" xsi:type=\"sawst:section\" rendered=\"true\"/>\u003c/sawst:container>\u003c/sawst:container>\u003c/sawst:envState>\u003c/sawst:stateRef>\u003csawst:reportXmlRefferedTo>\u003cref statePath=\"d:dashboard~p:mco0pb0nob7sqjvg~r:q4g2fiisnvk4nusv\" searchID=\"8oh8erup3kcqav10ukp36jaof2\">\u003c/ref>\u003c/sawst:reportXmlRefferedTo>\u003c/sawst:clientState></nqw>";
</script>

我想从此脚本部分检索标识符ih2bj24l46bkgt558qsef04jeq下的字符串statepoolId。那么如何在HTML中找到这个脚本并使用casperjs获取字符串?

1 个答案:

答案 0 :(得分:1)

访问window.sawXmlIslandidClientStateXml

这是页面中的一个脚本元素,它将变量添加到全局范围,因此您只需通过casper.evaluate访问它:

casper.then(function(){
    var sawXmlIslandidClientStateXml = casper.evaluate(function(){
        return window.sawXmlIslandidClientStateXml;
    });
    // TODO: do something
});

使用sawXmlIslandidClientStateXml

做点什么

你可以

  • 执行简单的字符串操作,将字符串拆分为更易于管理的部分,可以自行解析,
  • 编写正则表达式匹配器以查找您正在寻找的具体细节,或
  • 使用DOMParser将字符串解析为XML,然后使用yourParsedDocument.querySelectoryourParsedDocument.evaluate分别通过CSS选择器或XPath表达式定位元素。