我有一个包含文本和图片的文档,我想将我的文档拆分成如下句子:[Sentence1,Sentence2,Picture1,Sentence3,Picture2,...]。
我知道如何拆分仅包含文本的文档:
file = open("text.txt").read()
sentence = nltk.sent_tokenize(file)
print(sentence)
但是对于包含图片的文档我们该怎么办呢? 我认为我们必须首先打开.docx格式的文档,但是找不到打开它的库。
谢谢您的帮助!