如何编写一种从文件目录中的Word文档提取文本的方法(采用文件目录)?

时间:2018-09-28 11:48:08

标签: python ms-word data-extraction

我想创建一个可以执行以下操作的方法,我可以知道该怎么做吗?:

 import os
    import docx2txt

os.chdir("C:\\Users\\user\\PycharmProjects\\FYP\\dataprep\\source_documents")


def get_ednotes(list_all_files):
    #get the file directory
    list_all_files = os.getcwd()
    my_text = docx2txt.process(list_all_files)

    #extract text from file
    #store extracted data in an array
    #return array

1 个答案:

答案 0 :(得分:-1)

以下文档为您提供了答案:

Python Input/Output documentation

更具体地说,您需要功能file.readlines()