我正在尝试使用antiword将.doc文件转换为文本。但是,我的某些文件没有完全转换。这似乎只是在Word文档中出现表格的地方发生。
例如,在this word document(通过路易斯安那州)中,反词会跳过第14页上的表格和第17页上的表格之间的文本。
以下是我使用的Python和bash命令(它们产生了相同的结果):
Python:
text = subprocess.run(
['antiword', '-m', '8859-1.txt', '-'],
input=input_file,
stdout=subprocess.PIPE,
stderr=subprocess.DEVNULL
).stdout.decode(encoding='latin-1')
重击:
antiword input_file > output_file
有没有使用反词的用户遇到过此问题,如果有,是否有解决方法?