我正在尝试从政府网站访问数据,专为“点击”下载而设计。我的目标是找出获取CSV的模式,然后为其他人创建一个简单的API来获取该数据。该网站应该是开放数据,但对于如何以编程方式获取数据则相当模糊。
但是我没有弄清楚找到CSV的URL是什么模式,因为它们似乎隐藏在一些JavaScript背后。
页面的示例是this one,我想知道页面上png图像背后的链接。
我如何以编程方式访问此按钮后面的链接?
答案 0 :(得分:1)
如何进入此按钮后面的链接?
调查您的网络浏览器的“网络开发者”功能。应该有办法让浏览器记录它正在进行的所有请求的完整URL。
然后从示例中反向设计模式。 (这可能是也可能不是。但如果不可能,你应该让那些设计网站的人对尝试使用它的人不友好......编程。)
我如何以编程方式访问此按钮后面的链接?
不同的问题。以下是一些可能的选择:
使用了解如何执行Javascript的网页抓取框架。
使用像Selenium
有一个名为Phantom.JS的“无头浏览器”框架可能有所帮助。
请注意,以编程方式执行此操作要复杂得多。如果可以进行逆向工程,那就更简单了。