docx在python中列出

时间:2016-09-27 06:11:38

标签: python python-2.7 python-docx

我正在尝试阅读docx文件并将文本添加到列表中。 现在我需要列表来包含docx文件中的行。

示例:

docx文件:

"Hello, my name is blabla,
I am 30 years old.
I have two kids."

结果:

['Hello, my name is blabla', 'I am 30 years old', 'I have two kids']

我无法让它发挥作用。

使用此处的docx2txt模块: github link

只有一个进程命令,它返回docx文件中的所有文本。

此外,我希望保留":\-\.\,"

等特殊字符

1 个答案:

答案 0 :(得分:3)

docx2txt 模块读取docx文件并以文本格式转换它。

您需要使用splitlines()拆分输出以上并将其存储在列表中。

代码(评论内联):

import docx2txt

text = docx2txt.process("a.docx")

#Prints output after converting
print ("After converting text is ",text)

content = []
for line in text.splitlines():
  #This will ignore empty/blank lines. 
  if line != '':
    #Append to list
    content.append(line)

print (content)

<强>输出:

C:\Users\dinesh_pundkar\Desktop>python c.py
After converting text is
 Hello, my name is blabla.

I am 30 years old.

I have two kids.

 List is  ['Hello, my name is blabla.', 'I am 30 years old. ', 'I have two kids.']

C:\Users\dinesh_pundkar\Desktop>