在我的一个文件夹中共有5个单词(.docx)文件,我想在dataframe中读取和存储这些文件的内容
我能够在Python中使用以下语法读取一个文件。任何人都可以帮助我如何读取存储在一个文件夹中的多个docx文件并将结果保存在dataframe中
我也不确定特定文件夹中可用的docx文件的名称。
import docx2txt
# extract text
text = docx2txt.process("file.docx")
我可以使用以下脚本
获得结果import os
import docx2txt
import glob
import pandas as pd
os.chdir("C:/Data")
Descriptions = []
name = []
for file in glob.glob('*.docx'):
Descriptions.append(docx2txt.process(file))
name.append(file)
data = pd.DataFrame(
{'Descriptions': Descriptions,
'Name': name,
})
data.dtypes
答案 0 :(得分:2)
使用glob
获取文件夹中的所有文件,然后使用for loop
并将输出附加到变量。
import glob
text = ''
for file in glob.glob('folder_name/*.docx'):
text += docx2txt.process(file)
答案 1 :(得分:0)
这应该有效:
import os
directory = '.'
extension = '.docx'
text = ''
for a_file in os.listdir(directory):
if a_file.endswith(extension):
text = docx2txt.process(a_file)