我想获取2004年至2015年法国地方税以及部门中每个公社的数据。
这个政府页面https://www.impots.gouv.fr/portail/statistiques在Impots locaux-> Echelon communal et intermunmunal(2002 a 2016)->选择一个部门和年份-> Valider下具有此数据。
然后提供了两个xls表。
我想要一个标题为“ donnees de taxite locale”的文件。例如,在2015年,该表格的Ain网址为:https://www.impots.gouv.fr/portail/files/media/stats/rei_15_01.xls
其中15是年份,01是部门编号。
我当时想使用此URL的形状来下载表格,以自动更改此数字,这对于2015年来说很好。
但是,从2014年开始,URL的形状更改为:
https://www.impots.gouv.fr/portail/files/media/9_statistiques/3_IDL/3_communal/7537_rei_14_01.xls
7537是随年份/部门组合而变化的数字,没有任何模式。
我的问题是双重的:
-有没有一种方法可以访问此页面,而忽略部分URL来编写实例:
https://www.impots.gouv.fr/portail/files/media/9_statistiques/3_IDL/3_communal/####_rei_14_01.xls
-您能想到一个比每个组合尝试4个随机数直到找到存在的url更好的解决方案吗?
我曾尝试从其他来源寻找此数据,但没有什么比这更好的了 现在,我在R上使用以下代码,并计划在遇到问题之前遍历组合以获取每个表:
url1<-getURL("https://www.impots.gouv.fr/portail/files/media/stats/rei_16_01.xls")
GET(url1, write_disk(tf <- tempfile(fileext = ".xls")))
df <- read_excel(tf, 2L)
感谢您提供的任何见解。