我是Python的新手,正在尝试读取存储在多个文件夹层次结构中的.txt文件的数据集。 文件夹的结构是
-Folder1
-Category1_Folder
-file1.txt
-Category2_Folder
-file1.txt
-file2.txt and so on...
类别具有重要性。我需要能够确定哪个文件来自哪个类别。然后,我需要删除停用词并使用TfIDf执行特征提取。 做这样的事情最简单的方法是什么?
答案 0 :(得分:0)
我推荐os.walk
。
如果您有类似这样的内容:
project/
- folder1/
- file1.png
- file2.jpg
- folder2/
- file3.zip
然后,示例代码为:
import os
for dirpath, dirnames, filenames in os.walk(os.getcwd()): # getcwd() for current work dir
print(dirpath, dirnames, filenames)
输出来自:
/project ['folder1', 'folder2'] []
/project/folder1 [] ['file1.png', 'file2.jpg']
/project/folder2 [] ['file3.zip']
如果需要文件夹,文件名,请使用for循环:
for dirname in dirnames:
for filename in filenames:
# split dirname for categories
# and so on..