xpath在脚本标记内找到

时间:2015-02-22 17:34:16

标签: xml xpath google-docs

我使用Google表格使用xpath从THIS PAGE中提取内容。

使用importXML(),我可以通过xpath轻松提取HTML节点,例如,使用://*[@id='result_listing_1_0']/div[1]

但是,当我尝试提取脚本标记内的某些内容时,我收到错误(例如,使用xpath时使用//*[@id='exam_info_window_content_0_0'])。在这种情况下,ID位于脚本标记内。

如何使用xpath提取网页源代码中脚本标记内的HTML。

更新:这是我想要的输出示例:

  

学生笔记:

     

学生必须出示有效/清晰的带照片的身份证件   在每次约会之前。在此期间不允许使用电子设备   除非在考试说明中另有说明(无单元格)   手机;手机不能用作计算器)。学生必须   把手机留在家里,在一辆上锁车里,或者照顾好   监考官。所有预约必须提前确认。

     

费用明细:

     

基于计算机的考试 - 两小时纸质考试40美元    - 两小时30美元

     

网站:

     

http://www.csun.edu/testing(没有转义字符   这是:http:www.csun.edu/testing)

     
     

学生笔记:

     

学生必须出示有效/清晰的带照片的身份证件   在每次约会之前。在此期间不允许使用电子设备   除非在考试说明中另有说明(无单元格)   手机;手机不能用作计算器)。学生必须   把手机留在家里,在一辆上锁车里,或者照顾好   监考官。所有预约必须提前24小时确认。

     

费用明细:

     

25 $只需一次访问。可以进行多项测试   一次访问。免费停车。

     

网站:

     

http://www.spectrumlearningcenters.com(没有逃脱   这是人物:www.spectrumlearningcenters.com)

输出将从页面上的地图标记中提取: enter image description here enter image description here

1 个答案:

答案 0 :(得分:1)

脚本元素仅包含文本节点。

您需要匹配文本(使用contains)或获取整个文本节点,从中提取HTML,将HTML解析为DOM,然后在新DOM上运行XPath。