我想浏览网页链接,并在那里获取最大日期文件夹。 对于每个文件夹,我想迭代所有文件并在那里获取最大日期文件。是否有捷径可寻? 网络链接有像文件夹 2017年 2016 2015
在2017年的日期文件夹里面有2017年的excel文件。 我需要读取文件夹2017,因为这是最新创建的文件夹,然后迭代到该文件夹并读取最新的时间戳文件。
try:
url = "http://<url>/path"
def find_files(url):
soup = BeautifulSoup(requests.get(url).text, "lxml")
hrefs = []
for a in soup.find_all('a'):
hrefs.append(a['href'])
return hrefs
list_of_links = find_files(url)
## show what you've found:
for link in list_of_links:
if "?" not in link:
inner_url = url + "/" + link
inner_list = find_files(inner_url)
print inner_list
我试过这段代码,但我不知道如何获取文件夹的时间戳,然后获取最新的文件夹,然后迭代。 这也给了我?C = N,我想忽略的路径 我也不确定如何以递归方式执行此操作