Question

我想获取2004年至2015年法国地方税以及部门中每个公社的数据。
这个政府页面https://www.impots.gouv.fr/portail/statistiques在Impots locaux-> Echelon communal et intermunmunal（2002 a 2016）->选择一个部门和年份-> Valider下具有此数据。
然后提供了两个xls表。
我想要一个标题为“ donnees de taxite locale”的文件。例如，在2015年，该表格的Ain网址为：https://www.impots.gouv.fr/portail/files/media/stats/rei_15_01.xls
其中15是年份，01是部门编号。
我当时想使用此URL的形状来下载表格，以自动更改此数字，这对于2015年来说很好。但是，从2014年开始，URL的形状更改为：
https://www.impots.gouv.fr/portail/files/media/9_statistiques/3_IDL/3_communal/7537_rei_14_01.xls
7537是随年份/部门组合而变化的数字，没有任何模式。
我的问题是双重的：
-有没有一种方法可以访问此页面，而忽略部分URL来编写实例： https://www.impots.gouv.fr/portail/files/media/9_statistiques/3_IDL/3_communal/####_rei_14_01.xls
-您能想到一个比每个组合尝试4个随机数直到找到存在的url更好的解决方案吗？

我曾尝试从其他来源寻找此数据，但没有什么比这更好的了现在，我在R上使用以下代码，并计划在遇到问题之前遍历组合以获取每个表：

url1<-getURL("https://www.impots.gouv.fr/portail/files/media/stats/rei_16_01.xls")
GET(url1, write_disk(tf <- tempfile(fileext = ".xls")))
df <- read_excel(tf, 2L)

感谢您提供的任何见解。

从网页中提取xls表，而无需了解URL的一部分

0 个答案: