如何拆分包含文本和图片(NLTK)的文档.docx?

时间:2019-06-07 08:26:15

标签: python python-3.x

我有一个包含文本和图片的文档,我想将我的文档拆分成如下句子:[Sentence1,Sentence2,Picture1,Sentence3,Picture2,...]。

我知道如何拆分仅包含文本的文档:

file = open("text.txt").read()
sentence = nltk.sent_tokenize(file)
print(sentence)

但是对于包含图片的文档我们该怎么办呢? 我认为我们必须首先打开.docx格式的文档,但是找不到打开它的库。

谢谢您的帮助!

0 个答案:

没有答案