我知道openrefine不是网页抓取的完美工具,但从第一步开始寻找一些帮助。
当我通过提取网址(https://profiles.health.ny.gov/hospital/view/103094)添加列时,我无法从openrefine收集完整的html代码。它们不包含任何手风琴代码,如服务,床型等。
想知道通过openrefine获取完整代码吗? 我试图在管理下收集信息,其Xpath为“// div [4] / div / ul / li”(“div#AdministrativeBox.in.collapse”)
答案 0 :(得分:2)
此网站使用Javascript动态加载其内容。您感兴趣的信息不会存储在页面的源代码中,因此Open Refine无法提取它。
但是,有一种解决方法。如果您使用GREL公式value.replace('view', 'tab_overview')
转换网址,则会获得6。
请注意,OpenRefine不使用Xpath,而是使用scrapable pages like this one。要获得" Administrative"的元素。阻止,你可以使用这个GREL公式。
forEach(value.parseHtml().select('#AdministrativeBox li'), e, e.htmlText()).join(',')
结果: