Openrefine无法获取手风琴中的html代码

时间:2018-06-05 22:15:01

标签: html web-scraping openrefine

我知道openrefine不是网页抓取的完美工具,但从第一步开始寻找一些帮助。

当我通过提取网址(https://profiles.health.ny.gov/hospital/view/103094)添加列时,我无法从openrefine收集完整的html代码。它们不包含任何手风琴代码,如服务,床型等。

想知道通过openrefine获取完整代码吗? 我试图在管理下收集信息,其Xpath为“// div [4] / div / ul / li”(“div#AdministrativeBox.in.collapse”)

1 个答案:

答案 0 :(得分:2)

此网站使用Javascript动态加载其内容。您感兴趣的信息不会存储在页面的源代码中,因此Open Refine无法提取它。

但是,有一种解决方法。如果您使用GREL公式value.replace('view', 'tab_overview')转换网址,则会获得6

请注意,OpenRefine不使用Xpath,而是使用scrapable pages like this one。要获得" Administrative"的元素。阻止,你可以使用这个GREL公式。

forEach(value.parseHtml().select('#AdministrativeBox li'), e, e.htmlText()).join(',')

结果:

JSOUP selectors