如何列出目录的所有文件?

时间:2010-07-08 19:31:23

标签: python directory

如何在Python中列出目录的所有文件并将其添加到list

21 个答案:

答案 0 :(得分:3408)

os.listdir()将为您提供目录中的所有内容 - 文件和目录。

如果您想要 个文件,可以使用os.path对其进行过滤:

from os import listdir
from os.path import isfile, join
onlyfiles = [f for f in listdir(mypath) if isfile(join(mypath, f))]

或者您可以使用os.walk(),它会为其访问的每个目录生成两个列表 - 为您分割成文件和目录。如果你只想要顶级目录,你可以在它第一次产生时中断

from os import walk

f = []
for (dirpath, dirnames, filenames) in walk(mypath):
    f.extend(filenames)
    break

最后,正如该示例所示,将一个列表添加到另一个列表,您可以使用.extend()

>>> q = [1, 2, 3]
>>> w = [4, 5, 6]
>>> q = q + w
>>> q
[1, 2, 3, 4, 5, 6]

就个人而言,我更喜欢.extend()

答案 1 :(得分:1365)

我更喜欢使用glob模块,因为它模式匹配和扩展。

import glob
print(glob.glob("/home/adam/*.txt"))

它将返回包含查询文件的列表:

['/home/adam/file1.txt', '/home/adam/file2.txt', .... ]

答案 2 :(得分:650)

import os
os.listdir("somedirectory")

将返回“somedirectory”中所有文件和目录的列表。

答案 3 :(得分:502)

获取Python 2和3

的文件列表

我还在这里制作了一段简短视频: Python: how to get a list of file in a directory

<强> os.listdir()

或.....如何获取当前目录中的所有文件(和目录)(Python 3)

在Python 3中将文件放在当前目录中的最简单方法是这样。这很简单;使用os模块和listdir()函数,您将在该目录中拥有该文件(以及目录中的最终文件夹,但您不会在该子目录中包含该文件,因为你可以使用步行 - 我稍后会谈到它。)

>>> import os
>>> arr = os.listdir()
>>> arr
['$RECYCLE.BIN', 'work.txt', '3ebooks.txt', 'documents']

使用glob

我发现glob更容易选择相同类型的文件或共同的东西。请看以下示例:

import glob

txtfiles = []
for file in glob.glob("*.txt"):
    txtfiles.append(file)

使用列表理解

import glob

mylist = [f for f in glob.glob("*.txt")]

使用os.path.abspath获取完整路径名

正如您所注意到的,您在上面的代码中没有文件的完整路径。如果需要具有绝对路径,则可以使用名为os.path的{​​{1}}模块的另一个函数,将从_getfullpathname获取的文件作为参数。还有其他方法可以获得完整路径,我们稍后会检查(我更换了,如mexmex所建议,_getfullpathname和os.listdir())。

abspath

使用>>> import os >>> files_path = [os.path.abspath(x) for x in os.listdir()] >>> files_path ['F:\\documenti\applications.txt', 'F:\\documenti\collections.txt']

获取所有子目录中文件类型的完整路径名

我发现这对于在许多目录中查找内容非常有用,它帮助我找到了一个我不记得名字的文件:

walk

os.listdir():获取当前目录中的文件(Python 2)

在Python 2中,如果你想要当前目录中的文件列表,你必须将参数设为&#39;。&#39;或os.listdir方法中的os.getcwd()。

import os

# Getting the current work directory (cwd)
thisdir = os.getcwd()

# r=root, d=directories, f = files
for r, d, f in os.walk(thisdir):
    for file in f:
        if ".docx" in file:
            print(os.path.join(r, file))

进入目录树

>>> import os
>>> arr = os.listdir('.')
>>> arr
['$RECYCLE.BIN', 'work.txt', '3ebooks.txt', 'documents']

在特定目录(Python 2和3)中获取文件:os.listdir()

>>> # Method 1
>>> x = os.listdir('..')

# Method 2
>>> x= os.listdir('/')

使用os.listdir()

获取特定子目录的文件
>>> import os
>>> arr = os.listdir('F:\\python')
>>> arr
['$RECYCLE.BIN', 'work.txt', '3ebooks.txt', 'documents']

os.walk(&#39;。&#39;) - 当前目录

import os

x = os.listdir("./content")

glob模块 - 所有文件

>>> import os
>>> arr = next(os.walk('.'))[2]
>>> arr
['5bs_Turismo1.pdf', '5bs_Turismo1.pptx', 'esperienza.txt']

next(os.walk(&#39;。&#39;))和os.path.join(&#39; dir&#39;,&#39; file&#39;)

import glob
print(glob.glob("*"))

out:['content', 'start.py']

next(os.walk(&#39; F:\&#39;) - 获取完整路径 - 列表理解

>>> import os
>>> arr = []
>>> for d,r,f in next(os.walk("F:\\_python")):
>>>     for file in f:
>>>         arr.append(os.path.join(r,file))
...
>>> for f in arr:
>>>     print(files)

>output

F:\\_python\\dict_class.py
F:\\_python\\programmi.txt

os.walk - 获取完整路径 - 子目录中的所有文件

>>> [os.path.join(r,file) for r,d,f in next(os.walk("F:\\_python")) for file in f]
['F:\\_python\\dict_class.py', 'F:\\_python\\programmi.txt']

os.listdir() - 只获取txt文件

x = [os.path.join(r,file) for r,d,f in os.walk("F:\\_python") for file in f]

>>>x
['F:\\_python\\dict.py', 'F:\\_python\\progr.txt', 'F:\\_python\\readl.py']

glob - 只获取txt文件

>>> arr_txt = [x for x in os.listdir() if x.endswith(".txt")]
>>> print(arr_txt)
['work.txt', '3ebooks.txt']

使用glob获取文件的完整路径

如果我需要文件的绝对路径:

>>> import glob
>>> x = glob.glob("*.txt")
>>> x
['ale.txt', 'alunni2015.txt', 'assenze.text.txt', 'text2.txt', 'untitled.txt']

glob的其他用途

如果我想要目录中的所有文件:

>>> from path import path
>>> from glob import glob
>>> x = [path(f).abspath() for f in glob("F:\\*.txt")]
>>> for f in x:
...  print(f)
...
F:\acquistionline.txt
F:\acquisti_2018.txt
F:\bootstrap_jquery_ecc.txt

使用os.path.isfile来避免列表中的目录

>>> x = glob.glob("*")

使用(Python 3.4)

中的pathlib
import os.path
listOfFiles = [f for f in os.listdir() if os.path.isfile(f)]
print(listOfFiles)

> output

['a simple game.py', 'data.txt', 'decorator.py']

如果你想使用列表理解

import pathlib

>>> flist = []
>>> for p in pathlib.Path('.').iterdir():
...  if p.is_file():
...   print(p)
...   flist.append(p)
...
error.PNG
exemaker.bat
guiprova.mp3
setup.py
speak_gui2.py
thumb.PNG

*您也可以使用pathlib.Path()而不是pathlib.Path(&#34;。&#34;)

在pathlib.Path()

中使用glob方法
>>> flist = [p for p in pathlib.Path('.').iterdir() if p.is_file()]

输出:

import pathlib

py = pathlib.Path().glob("*.py")
for file in py:
    print(file)

使用os.walk获取所有和唯一的文件

stack_overflow_list.py
stack_overflow_list_tkinter.py

仅获取带有next的文件并进入目录

import os
x = [i[2] for i in os.walk('.')]
y=[]
for t in x:
    for f in t:
        y.append(f)

>>> y
['append_to_list.py', 'data.txt', 'data1.txt', 'data2.txt', 'data_180617', 'os_walk.py', 'READ2.py', 'read_data.py', 'somma_defaltdic.py', 'substitute_words.py', 'sum_data.py', 'data.txt', 'data1.txt', 'data_180617']

仅获取带有next的目录并进入目录

>>> import os
>>> x = next(os.walk('F://python'))[2]
>>> x
['calculator.bat','calculator.py']

使用>>> import os >>> next(os.walk('F://python'))[1] # for the current dir use ('.') ['python3','others']

获取所有子目录名称
walk
来自Python 3.5 的

os.scandir()
>>> for r,d,f in os.walk("F:\\_python"):
...  for dirs in d:
...   print(dirs)
...
.vscode
pyexcel
pyschool.py
subtitles
_metaprogramming
.ipynb_checkpoints

实施例。 1:子目录中有多少个文件?

在此示例中,我们查找所有目录及其子目录中包含的文件数。

>>> import os
>>> x = [f.name for f in os.scandir() if f.is_file()]
>>> x
['calculator.bat','calculator.py']

# Another example with scandir (a little variation from docs.python.org)
# This one is more efficient than os.listdir.
# In this case, it shows the files only in the current directory
# where the script is executed.

>>> import os
>>> with os.scandir() as i:
...  for entry in i:
...   if entry.is_file():
...    print(entry.name)
...
ebookmaker.py
error.PNG
exemaker.bat
guiprova.mp3
setup.py
speakgui4.py
speak_gui2.py
speak_gui3.py
thumb.PNG
>>>

例2:如何将目录中的所有文件复制到另一个目录?

在您的计算机中命令查找所有类型文件(默认值:pptx)并将其复制到新文件夹中的脚本。

import os

def count(dir, counter=0):
    "returns number of files in dir and subdirs"
    for pack in os.walk(dir):
        for f in pack[2]:
            counter += 1
    return dir + " : " + str(counter) + "files"

print(count("F:\\python"))

> output

>'F:\\\python' : 12057 files'

实施例。 3:如何获取txt文件中的所有文件

如果您要创建包含所有文件名的txt文件:

import os
import shutil
from path import path

destination = "F:\\file_copied"
# os.makedirs(destination)

def copyfile(dir, filetype='pptx', counter=0):
    "Searches for pptx (or other - pptx is the default) files and copies them"
    for pack in os.walk(dir):
        for f in pack[2]:
            if f.endswith(filetype):
                fullpath = pack[0] + "\\" + f
                print(fullpath)
                shutil.copy(fullpath, destination)
                counter += 1
    if counter > 0:
        print("------------------------")
        print("\t==> Found in: `" + dir + "` : " + str(counter) + " files\n")

for dir in os.listdir():
    "searches for folders that starts with `_`"
    if dir[0] == '_':
        # copyfile(dir, filetype='pdf')
        copyfile(dir, filetype='txt')


> Output

_compiti18\Compito Contabilità 1\conti.txt
_compiti18\Compito Contabilità 1\modula4.txt
_compiti18\Compito Contabilità 1\moduloa4.txt
------------------------
==> Found in: `_compiti18` : 3 files

示例:包含硬盘驱动器所有文件的txt

import os
mylist = ""
with open("filelist.txt", "w", encoding="utf-8") as file:
    for eachfile in os.listdir():
        mylist += eachfile + "\n"
    file.write(mylist)

C:\\的所有文件都在一个文本文件

这是以前代码的较短版本。如果需要从其他位置开始,请更改文件夹从哪里开始查找文件。此代码在我的计算机上生成一个50 MB的文本文件,其中包含少于500.000行,文件包含完整路径。

"""We are going to save a txt file with all the files in your directory.
We will use the function walk()

"""

import os

# see all the methods of os
# print(*dir(os), sep=", ")
listafile = []
percorso = []
with open("lista_file.txt", "w", encoding='utf-8') as testo:
    for root, dirs, files in os.walk("D:\\"):
        for file in files:
            listafile.append(file)
            percorso.append(root + "\\" + file)
            testo.write(file + "\n")
listafile.sort()
print("N. of files", len(listafile))
with open("lista_file_ordinata.txt", "w", encoding="utf-8") as testo_ordinato:
    for file in listafile:
        testo_ordinato.write(file + "\n")

with open("percorso.txt", "w", encoding="utf-8") as file_percorso:
    for file in percorso:
        file_percorso.write(file + "\n")

os.system("lista_file.txt")
os.system("lista_file_ordinata.txt")
os.system("percorso.txt")

搜索特定类型文件的功能

import os

with open("file.txt", "w", encoding="utf-8") as filewrite:
    for r, d, f in os.walk("C:\\"):
        for file in f:
            filewrite.write(f"{r + file}\n")    

答案 4 :(得分:149)

获取仅文件列表(无子目录)的单行解决方案:

filenames = next(os.walk(path))[2]

或绝对路径名:

paths = [os.path.join(path,fn) for fn in next(os.walk(path))[2]]

答案 5 :(得分:117)

从目录及其所有子目录获取完整文件路径

import os

def get_filepaths(directory):
    """
    This function will generate the file names in a directory 
    tree by walking the tree either top-down or bottom-up. For each 
    directory in the tree rooted at directory top (including top itself), 
    it yields a 3-tuple (dirpath, dirnames, filenames).
    """
    file_paths = []  # List which will store all of the full filepaths.

    # Walk the tree.
    for root, directories, files in os.walk(directory):
        for filename in files:
            # Join the two strings in order to form the full filepath.
            filepath = os.path.join(root, filename)
            file_paths.append(filepath)  # Add it to the list.

    return file_paths  # Self-explanatory.

# Run the above function and store its results in a variable.   
full_file_paths = get_filepaths("/Users/johnny/Desktop/TEST")

  • 我在上面的函数中提供的路径包含3个文件 - 其中两个位于根目录中,另一个位于名为“SUBFOLDER”的子文件夹中。您现在可以执行以下操作:
  • print full_file_paths将打印列表:

    • ['/Users/johnny/Desktop/TEST/file1.txt', '/Users/johnny/Desktop/TEST/file2.txt', '/Users/johnny/Desktop/TEST/SUBFOLDER/file3.dat']

如果您愿意,可以打开并阅读内容,或只关注扩展名为“.dat”的文件,如下面的代码所示:

for f in full_file_paths:
  if f.endswith(".dat"):
    print f

/Users/johnny/Desktop/TEST/SUBFOLDER/file3.dat

答案 6 :(得分:71)

从版本3.4开始,内置迭代器,这比os.listdir()更有效:

pathlib版本3.4中的新内容。

>>> import pathlib
>>> [p for p in pathlib.Path('.').iterdir() if p.is_file()]

根据PEP 428pathlib库的目的是提供一个简单的类层次结构来处理文件系统路径以及用户对它们执行的常见操作。

os.scandir()版本3.5中的新内容。

>>> import os
>>> [entry for entry in os.scandir('.') if entry.is_file()]

请注意os.walk()使用os.scandir()代替版本3.5中的os.listdir(),根据PEP 471,其速度提高了2-20倍。

我还建议您阅读下面的ShadowRanger评论。

答案 7 :(得分:47)

我真的很喜欢adamk's answer,建议您使用同名模块中的glob()。这允许您与* s进行模式匹配。

但正如其他人在评论中指出的那样,glob()可能因不一致的斜线方向而被绊倒。为此,我建议您使用join()模块中的expanduser()os.path函数,以及getcwd()模块中的os函数,好。

例如:

from glob import glob

# Return everything under C:\Users\admin that contains a folder called wlp.
glob('C:\Users\admin\*\wlp')

上面的内容非常糟糕 - 路径已经过硬编码,只能在Windows上以驱动器名称和\被硬编码到路径中。

from glob    import glob
from os.path import join

# Return everything under Users, admin, that contains a folder called wlp.
glob(join('Users', 'admin', '*', 'wlp'))

以上效果更好,但它依赖于文件夹名称Users,它通常在Windows上找到,而在其他操作系统上并不常见。它还依赖于具有特定名称admin

的用户
from glob    import glob
from os.path import expanduser, join

# Return everything under the user directory that contains a folder called wlp.
glob(join(expanduser('~'), '*', 'wlp'))

这适用于所有平台。

另一个很好的例子,它可以跨平台完美运行,并且做了一些不同的事情:

from glob    import glob
from os      import getcwd
from os.path import join

# Return everything under the current directory that contains a folder called wlp.
glob(join(getcwd(), '*', 'wlp'))

希望这些示例可以帮助您了解标准Python库模块中可以找到的一些函数的强大功能。

答案 8 :(得分:34)

def list_files(path):
    # returns a list of names (with extension, without full path) of all files 
    # in folder path
    files = []
    for name in os.listdir(path):
        if os.path.isfile(os.path.join(path, name)):
            files.append(name)
    return files 

答案 9 :(得分:22)

如果您正在寻找查找的Python实现,这是我经常使用的配方:

from findtools.find_files import (find_files, Match)

# Recursively find all *.sh files in **/usr/bin**
sh_files_pattern = Match(filetype='f', name='*.sh')
found_files = find_files(path='/usr/bin', match=sh_files_pattern)

for found_file in found_files:
    print found_file

所以我从中创建了一个PyPI package,还有一个GitHub repository。我希望有人发现它可能对此代码有用。

答案 10 :(得分:11)

返回绝对文件路径列表,不会递归到子目录

L = [os.path.join(os.getcwd(),f) for f in os.listdir('.') if os.path.isfile(os.path.join(os.getcwd(),f))]

答案 11 :(得分:10)

要获得更好的结果,可以将listdir()模块的os方法与生成器一起使用(生成器是功能强大的迭代器,请记住状态)。以下代码在这两个版本上均可正常使用:Python 2和Python 3。

这是一个代码:

import os

def files(path):  
    for file in os.listdir(path):
        if os.path.isfile(os.path.join(path, file)):
            yield file

for file in files("."):  
    print (file)

listdir()方法返回给定目录的条目列表。如果给定的条目是文件,则方法os.path.isfile()返回Trueyield运算符退出该功能但保持其当前状态,并且仅返回检测为文件的条目的名称。以上所有内容使我们可以遍历生成器函数。

答案 12 :(得分:8)

import os
import os.path


def get_files(target_dir):
    item_list = os.listdir(target_dir)

    file_list = list()
    for item in item_list:
        item_dir = os.path.join(target_dir,item)
        if os.path.isdir(item_dir):
            file_list += get_files(item_dir)
        else:
            file_list.append(item_dir)
    return file_list

这里我使用递归结构。

答案 13 :(得分:6)

一个聪明的老师曾经告诉我:

  

当有几种确定的方法可以做某事时,没有一种方法适用于所有情况。

因此,我将为问题的子集添加一个解决方案:很多时候,我们只想检查文件是否匹配开始字符串和结束字符串,而无需进入子目录。因此,我们希望有一个返回文件名列表的函数,例如:

filenames = dir_filter('foo/baz', radical='radical', extension='.txt')

如果您想先声明两个函数,可以这样做:

def file_filter(filename, radical='', extension=''):
    "Check if a filename matches a radical and extension"
    if not filename:
        return False
    filename = filename.strip()
    return(filename.startswith(radical) and filename.endswith(extension))

def dir_filter(dirname='', radical='', extension=''):
    "Filter filenames in directory according to radical and extension"
    if not dirname:
        dirname = '.'
    return [filename for filename in os.listdir(dirname)
                if file_filter(filename, radical, extension)]

此解决方案可以很容易地用正则表达式推广(如果您不希望模式始终坚持文件名的开头或结尾,则可能需要添加pattern参数)。

答案 14 :(得分:5)

使用发电机

import os
def get_files(search_path):
     for (dirpath, _, filenames) in os.walk(search_path):
         for filename in filenames:
             yield os.path.join(dirpath, filename)
list_files = get_files('.')
for filename in list_files:
    print(filename)

答案 15 :(得分:3)

Python 3.4+的另一个非常易读的变体是使用pathlib.Path.glob:

from pathlib import Path
folder = '/foo'
[f for f in Path(folder).glob('*') if f.is_file()]

更具体,例如,只查找非符号链接的Python源文件,也在所有子目录中查找:

[f for f in Path(folder).glob('**/*.py') if not f.is_symlink()]

答案 16 :(得分:2)

这是我的通用功能。它返回文件路径列表而不是文件名,因为我发现它更有用。它有一些可选参数,使其具有多种功能。例如,我经常将其用于pattern='*.txt'subfolders=True等参数。

import os
import fnmatch

def list_paths(folder='.', pattern='*', case_sensitive=False, subfolders=False):
    """Return a list of the file paths matching the pattern in the specified 
    folder, optionally including files inside subfolders.
    """
    match = fnmatch.fnmatchcase if case_sensitive else fnmatch.fnmatch
    walked = os.walk(folder) if subfolders else [next(os.walk(folder))]
    return [os.path.join(root, f)
            for root, dirnames, filenames in walked
            for f in filenames if match(f, pattern)]

答案 17 :(得分:1)

dircache是“从2.6版开始不推荐使用:在Python 3.0中删除了dircache模块。”

import dircache
list = dircache.listdir(pathname)
i = 0
check = len(list[0])
temp = []
count = len(list)
while count != 0:
  if len(list[i]) != check:
     temp.append(list[i-1])
     check = len(list[i])
  else:
    i = i + 1
    count = count - 1

print temp

答案 18 :(得分:1)

对于python2: pip安装rglob

# Adds files into an object
$CSV = Get-ChildItem "C:\temp\test\*.csv" 

# Create a loop to action each file in the object created above
Foreach($File in $CSV){
    # Splits each part of the filename using the hyphen
    $NewName = @($File.basename.Split('-'))
    # created a new name using each individual part of the split original name
    # Also replaced the underscore section
    $NewFileName = "$($NewName[0])"+"-"+"$($NewName[10])"+"-"+"$($NewName[11])"+"-"+"$($NewName[12] -replace '_.*')"+".csv"
    # Renames file
    Rename-Item $File $NewFileName
}

答案 19 :(得分:0)

我将提供一个示例一个衬管,其中可以提供源路径和文件类型作为输入。该代码返回带有csv扩展名的文件名列表。如果需要返回所有文件,请使用。这也将递归扫描子目录。

[y for x in os.walk(sourcePath) for y in glob(os.path.join(x[0], '*.csv'))]

根据需要修改文件扩展名和源路径。

答案 20 :(得分:-2)

要从指定的文件夹(包括子目录)中获取所有文件。

0 | 1