网页抓取到Excel

时间:2018-08-15 10:59:07

标签: excel web-services web-scraping import

我想创建一个电子表格,我可以每星期刷新并提取英超联赛赛程,我希望每周刷新一次并查看未来几周的赛程。我尝试使用“数据/来自Web”的导入功能,并选择了带有灯具表的框,但是没有数据被拉入电子表格。

我正在使用的网站是-“ http://data.7m.com.cn/matches_data/92/en/index.shtml

我愿意了解进行此导入的更好方法,并且如果有更好的网站可以使用,我也很乐意进行更改。我选择了这个,因为它似乎具有最简化的灯具列表。 我也尝试过这个网站-https://www.premierleague.com/fixtures 导入完成后,它实际上会跳过所有固定装置,并返回所有其他信息。 我是否应该寻找网页脚本中的一些HTML元素来提取数据?

例如,在以下站点上-https://www.premierleague.com/fixtures,我正在寻找网站接收的文件,该文件每周更新灯具(在Google的某些指示之后),我按下F12命令并在“网络”中查看标签,但是我无法理解该网站(或引用的其他网站)如何创建每周固定装置。 关于如何将此应用到Excel或其他工具的任何建议都是很棒的。

1 个答案:

答案 0 :(得分:0)

欢迎来到[so]!听起来您好像还没有做太多的研究。您的第一个链接位于左上角,具有指向“免费订阅源”的链接,该链接可带您到可定制的小部件,并且从那里有指向可定制的实时模板的链接。第一页上还具有到“数据”的链接,我不确定它由什么组成或对它有帮助(因为我不是我的大陆上的体育迷,而在您的大陆上则更少!

对于导入Excel,我所看到的表没有问题,但是我又一次不清楚您要获取的数据以及要使用的数据。

  1. 在功能区的Data选项卡上,单击 From Web
  2. 从您的问题中输入first URL,然后按 Enter
  3. 加载“导航器”窗口后,单击“表1” ,然后单击 Load
    以下是Excel随后自动加载为表格的内容:

    img

如果您不是单击 Load ,而是单击 Edit ,那么您将进入Power Query Editor,可以在其中进行自定义大量的东西。我感兴趣的是Use First Row on Headers。选择该选项并单击 Close & Load 之后,经过30秒钟的格式化,我得到:

img

使用高级查询,您可以选择,删除,拆分或合并此表或其他表中的列。它相当先进,但是您应该可以在线找到一个很好的 Power Query教程,以查看可以做的事的示例,了解可以自定义数据导入和/或分析的其他方式。


编辑:

更多信息:

以下是所有版本的说明: