使用python迭代weblink中的文件夹

时间:2017-07-10 05:38:51

标签: python python-requests

我想浏览网页链接,并在那里获取最大日期文件夹。 对于每个文件夹,我想迭代所有文件并在那里获取最大日期文件。是否有捷径可寻? 网络链接有像文件夹 2017年 2016 2015

在2017年的日期文件夹里面有2017年的excel文件。 我需要读取文件夹2017,因为这是最新创建的文件夹,然后迭代到该文件夹​​并读取最新的时间戳文件。

try:
    url = "http://<url>/path"

    def find_files(url):

        soup = BeautifulSoup(requests.get(url).text, "lxml")

        hrefs = []

        for a in soup.find_all('a'):
            hrefs.append(a['href'])

        return hrefs

    list_of_links = find_files(url)


    ## show what you've found:
    for link in list_of_links:
        if "?" not in link:
            inner_url = url + "/" + link
            inner_list = find_files(inner_url)
            print inner_list

我试过这段代码,但我不知道如何获取文件夹的时间戳,然后获取最新的文件夹,然后迭代。 这也给了我?C = N,我想忽略的路径 我也不确定如何以递归方式执行此操作

0 个答案:

没有答案