应用错误收集

如何拆分包含文本和图片（NLTK）的文档.docx？

时间：2019-06-07 08:26:15

标签： python python-3.x

我有一个包含文本和图片的文档，我想将我的文档拆分成如下句子：[Sentence1，Sentence2，Picture1，Sentence3，Picture2，...]。

我知道如何拆分仅包含文本的文档：

file = open("text.txt").read()
sentence = nltk.sent_tokenize(file)
print(sentence)

但是对于包含图片的文档我们该怎么办呢？我认为我们必须首先打开.docx格式的文档，但是找不到打开它的库。

谢谢您的帮助！

0 个答案:

没有答案