Question

我知道openrefine不是网页抓取的完美工具，但从第一步开始寻找一些帮助。

当我通过提取网址（https://profiles.health.ny.gov/hospital/view/103094）添加列时，我无法从openrefine收集完整的html代码。它们不包含任何手风琴代码，如服务，床型等。

想知道通过openrefine获取完整代码吗？我试图在管理下收集信息，其Xpath为“// div [4] / div / ul / li”（“div＃AdministrativeBox.in.collapse”）

Answer 1

此网站使用Javascript动态加载其内容。您感兴趣的信息不会存储在页面的源代码中，因此Open Refine无法提取它。

但是，有一种解决方法。如果您使用GREL公式value.replace('view', 'tab_overview')转换网址，则会获得6。

请注意，OpenRefine不使用Xpath，而是使用scrapable pages like this one。要获得＆＃34; Administrative＆＃34;的元素。阻止，你可以使用这个GREL公式。

forEach(value.parseHtml().select('#AdministrativeBox li'), e, e.htmlText()).join(',')

结果：