openrefine - 如何从一系列页面下载数据？

时间：2018-11-22 23:20:46

标签： openrefine

示例：

我想从https://www.example.com/api.php?id=X（虚拟URL）下载所有数据，其中X为1到1000，每个页面都是一个包含数据行数据的JSON。（我不想手动添加1000个URL，OpenRefine似乎不允许粘贴URL列表。）
我想在以下页面中下载信息
https://en.wikipedia.org/wiki/Category:Lists_of_horror_films_by_year，每个都包含一个HTML表。
我想从https://en.wikipedia.org/wiki/Template:Earthquakes_by_year中的所有页面下载所有表中的数据，每个页面包含多个HTML表。

答案 0 :(得分：2)

OpenRefine不是Web抓取工具。它具有获取网页的功能，但是您会很快遇到很多限制。

示例1，您可以在电子表格软件（如Excel或OpenOffice Calc）中准备URL列表。将项目导入OpenRefine，并使用功能Add a column by fetching URL。

示例2和3：OpenRefine无法抓取或跟踪链接。您将需要：