在一个变量

时间:2017-12-21 09:56:17

标签: python

在我的一个文件夹中共有5个单词(.docx)文件,我想在dataframe中读取和存储这些文件的内容

我能够在Python中使用以下语法读取一个文件。任何人都可以帮助我如何读取存储在一个文件夹中的多个docx文件并将结果保存在dataframe中

我也不确定特定文件夹中可用的docx文件的名称。

import docx2txt

# extract text
text = docx2txt.process("file.docx")

我可以使用以下脚本

获得结果
import os
import docx2txt
import glob
import pandas as pd       

os.chdir("C:/Data")

Descriptions = []
name = []

for file in glob.glob('*.docx'):
    Descriptions.append(docx2txt.process(file))    
    name.append(file)

data = pd.DataFrame(
    {'Descriptions': Descriptions,
     'Name': name,
    })

data.dtypes

2 个答案:

答案 0 :(得分:2)

使用glob获取文件夹中的所有文件,然后使用for loop并将输出附加到变量。

import glob
text = ''
for file in glob.glob('folder_name/*.docx'):
    text += docx2txt.process(file)

答案 1 :(得分:0)

这应该有效:

import os

directory = '.'
extension = '.docx'
text = ''

for a_file in os.listdir(directory):
    if a_file.endswith(extension):
        text = docx2txt.process(a_file)