Question

我是Python的新手，正在尝试读取存储在多个文件夹层次结构中的.txt文件的数据集。文件夹的结构是

-Folder1 
   -Category1_Folder
        -file1.txt
   -Category2_Folder
        -file1.txt
        -file2.txt and so on...

类别具有重要性。我需要能够确定哪个文件来自哪个类别。然后，我需要删除停用词并使用TfIDf执行特征提取。做这样的事情最简单的方法是什么？

Answer 1

我推荐os.walk。

如果您有类似这样的内容：

project/
- folder1/
  - file1.png
  - file2.jpg
- folder2/
  - file3.zip

然后，示例代码为：

import os

for dirpath, dirnames, filenames in os.walk(os.getcwd()):  # getcwd() for current work dir
  print(dirpath, dirnames, filenames)

输出来自：

/project ['folder1', 'folder2'] []
/project/folder1 [] ['file1.png', 'file2.jpg']
/project/folder2 [] ['file3.zip']

如果需要文件夹，文件名，请使用for循环：

for dirname in dirnames:
  for filename in filenames:
    # split dirname for categories
    # and so on..