从网页中提取xls表,而无需了解URL的一部分

时间:2019-01-23 14:13:47

标签: r url web-scraping

我想获取2004年至2015年法国地方税以及部门中每个公社的数据。
这个政府页面https://www.impots.gouv.fr/portail/statistiques在Impots locaux-> Echelon communal et intermunmunal(2002 a 2016)->选择一个部门和年份-> Valider下具有此数据。
然后提供了两个xls表。
我想要一个标题为“ donnees de taxite locale”的文件。例如,在2015年,该表格的Ain网址为:https://www.impots.gouv.fr/portail/files/media/stats/rei_15_01.xls
其中15是年份,01是部门编号。
我当时想使用此URL的形状来下载表格,以自动更改此数字,这对于2015年来说很好。 但是,从2014年开始,URL的形状更改为:
https://www.impots.gouv.fr/portail/files/media/9_statistiques/3_IDL/3_communal/7537_rei_14_01.xls
7537是随年份/部门组合而变化的数字,没有任何模式。
我的问题是双重的:
-有没有一种方法可以访问此页面,而忽略部分URL来编写实例:  https://www.impots.gouv.fr/portail/files/media/9_statistiques/3_IDL/3_communal/####_rei_14_01.xls
-您能想到一个比每个组合尝试4个随机数直到找到存在的url更好的解决方案吗?

我曾尝试从其他来源寻找此数据,但没有什么比这更好的了 现在,我在R上使用以下代码,并计划在遇到问题之前遍历组合以获取每个表:

url1<-getURL("https://www.impots.gouv.fr/portail/files/media/stats/rei_16_01.xls")
GET(url1, write_disk(tf <- tempfile(fileext = ".xls")))
df <- read_excel(tf, 2L)

感谢您提供的任何见解。

0 个答案:

没有答案