我使用Google表格使用xpath从THIS PAGE中提取内容。
使用importXML(),我可以通过xpath轻松提取HTML节点,例如,使用://*[@id='result_listing_1_0']/div[1]
但是,当我尝试提取脚本标记内的某些内容时,我收到错误(例如,使用xpath时使用//*[@id='exam_info_window_content_0_0']
)。在这种情况下,ID位于脚本标记内。
如何使用xpath提取网页源代码中脚本标记内的HTML。
更新:这是我想要的输出示例:
学生笔记:
学生必须出示有效/清晰的带照片的身份证件 在每次约会之前。在此期间不允许使用电子设备 除非在考试说明中另有说明(无单元格) 手机;手机不能用作计算器)。学生必须 把手机留在家里,在一辆上锁车里,或者照顾好 监考官。所有预约必须提前确认。
费用明细:
基于计算机的考试 - 两小时纸质考试40美元 - 两小时30美元
网站:
http://www.csun.edu/testing(没有转义字符 这是:http:www.csun.edu/testing)
学生笔记:
学生必须出示有效/清晰的带照片的身份证件 在每次约会之前。在此期间不允许使用电子设备 除非在考试说明中另有说明(无单元格) 手机;手机不能用作计算器)。学生必须 把手机留在家里,在一辆上锁车里,或者照顾好 监考官。所有预约必须提前24小时确认。
费用明细:
25 $只需一次访问。可以进行多项测试 一次访问。免费停车。
网站:
http://www.spectrumlearningcenters.com(没有逃脱 这是人物:www.spectrumlearningcenters.com)
输出将从页面上的地图标记中提取:
答案 0 :(得分:1)
脚本元素仅包含文本节点。
您需要匹配文本(使用contains
)或获取整个文本节点,从中提取HTML,将HTML解析为DOM,然后在新DOM上运行XPath。