我正在使用流行的百万首歌曲数据集,数据包含在几个嵌套的子文件夹中。所有文件均为.h5文件。我正在使用os库将数据导入python,但是它停在父文件夹中,并且不会循环获取所有数据。我不确定如何建立循环来实现这一目标。
entries = os.listdir("/Users/katherineperkins/Downloads/MillionSongSubset/data")
for filename in os.listdir(entries):
if filename.endswith(".h5") or filename.endswith(".py"):
# print(os.path.join(directory, filename))
continue
else:
continue
使用所有找到的代码段,我最终遇到以下错误:
listdir: path should be string, bytes, os.PathLike, integer or None, not list
答案 0 :(得分:0)
entries
是(目录?)名称的列表。 os.listdir
不能同时将它们作为参数。您需要一个外部循环,而内部循环需要将条目与被扫描的目录连接起来。
root_dir = "/Users/katherineperkins/Downloads/MillionSongSubset/data"
for entry in os.listdir(root_dir):
for filename in os.listdir(os.path.join(root_dir,entry)):
if filename.endswith((".h5",".py")):
# do something: beware as filename isn't the full filepath.
# it needs joining with os.path.join(root_dir,entry)
除非entry
不是目录,否则以上代码均有效。我们可以测试目录,或捕获异常,或者有时可以使用两级“全文件”通配符切换到glob
,
import glob
for filepath in glob.glob("/Users/katherineperkins/Downloads/MillionSongSubset/data/*/*"):
if filepath.endswith((".h5",".py")):
# do something
使用endswith
(顺便接受tuple
)测试文件扩展名的成本要比在两个扩展名上使用glob.glob
(例如:glob.glob("/Users/katherineperkins/Downloads/MillionSongSubset/data/*/*.h5")
)的花费要小(需要2个目录扫描)