如何从一系列页面下载数据?

时间:2018-11-22 23:20:46

标签: openrefine

示例:

  1. 我想从https://www.example.com/api.php?id=X(虚拟URL)下载所有数据,其中X为1到1000,每个页面都是一个包含数据行数据的JSON。 (我不想手动添加1000个URL,OpenRefine似乎不允许粘贴URL列表。)
  2. 我想在以下页面中下载信息
    https://en.wikipedia.org/wiki/Category:Lists_of_horror_films_by_year,每个都包含一个HTML表。
  3. 我想从https://en.wikipedia.org/wiki/Template:Earthquakes_by_year中的所有页面下载所有表中的数据,每个页面包含多个HTML表。

1 个答案:

答案 0 :(得分:2)

OpenRefine不是Web抓取工具。它具有获取网页的功能,但是您会很快遇到很多限制。

示例1,您可以在电子表格软件(如Excel或OpenOffice Calc)中准备URL列表。将项目导入OpenRefine,并使用功能Add a column by fetching URL

示例2和3:OpenRefine无法抓取或跟踪链接。您将需要:

  • 使用OpenRefine提取每个页面上的链接列表
  • 创建一个单独的OpenRefine项目,每行一个链接
  • 使用Add a column by fetching URL功能获取每个页面
  • 解析每个页面的HTML