Question

我想浏览网页链接，并在那里获取最大日期文件夹。对于每个文件夹，我想迭代所有文件并在那里获取最大日期文件。是否有捷径可寻？网络链接有像文件夹 2017年 2016 2015

在2017年的日期文件夹里面有2017年的excel文件。我需要读取文件夹2017，因为这是最新创建的文件夹，然后迭代到该文件夹并读取最新的时间戳文件。

try:
    url = "http://<url>/path"

    def find_files(url):

        soup = BeautifulSoup(requests.get(url).text, "lxml")

        hrefs = []

        for a in soup.find_all('a'):
            hrefs.append(a['href'])

        return hrefs

    list_of_links = find_files(url)


    ## show what you've found:
    for link in list_of_links:
        if "?" not in link:
            inner_url = url + "/" + link
            inner_list = find_files(inner_url)
            print inner_list

我试过这段代码，但我不知道如何获取文件夹的时间戳，然后获取最新的文件夹，然后迭代。这也给了我？C = N，我想忽略的路径我也不确定如何以递归方式执行此操作

使用python迭代weblink中的文件夹

0 个答案: