Python对docx文件进行排序

时间:2018-09-27 17:00:54

标签: python text-mining

我有一个自定义docx文件字典,其中要定义的单词以大写和粗体显示。这是与其他词的唯一区别。定义通常很大,并且之间有界线,因此创建了一个新段落。作为样本:

A

ASDFG,这意味着等等。   布拉来自混蛋

对于ASDFG,它仍然是相同的定义

杯子的MUG含义

ABBA音乐团体

我想正确地分隔段落以按单词定义,以按字母顺序定义(大写单词)。这就是我所拥有的

for p in document.paragraphs:
 if p.text.split(' ', 1)[0].isupper():
  #save as paragraph
  paragraph1 = text
 else:
  #concatenate to previews paragraph
  paragraph1 = text[-1] + text 

所需的输出

A

ABBA定义

ASDFG定义

M

MUG定义

谢谢!

1 个答案:

答案 0 :(得分:0)

#separate paragraphs by word to define
for p in document.paragraphs:
a = -1
if p.text.split(' ', 1)[0].isupper():
    texto.append(p.text)
    a = a + 1
else: 
    texto[a] = texto[a] + p.text

#sort the text
txt = sorted(texto)

# create an instance of a word document 
doc = docx.Document()

for t in txt:
doc_para = doc.add_paragraph(t)

docume = Document()

for t in txt:
   documen = docume.add_paragraph(t)

#export a docx named test with the sorted words
docume.save('test.docx')