反词未转换全文

时间:2019-03-11 17:55:54

标签: python text ms-word nlp .doc

我正在尝试使用antiword将.doc文件转换为文本。但是,我的某些文件没有完全转换。这似乎只是在Word文档中出现表格的地方发生。

例如,在this word document(通过路易斯安那州)中,反词会跳过第14页上的表格和第17页上的表格之间的文本。

以下是我使用的Python和bash命令(它们产生了相同的结果):

Python:

text = subprocess.run(
    ['antiword', '-m', '8859-1.txt', '-'],
    input=input_file,
    stdout=subprocess.PIPE,
    stderr=subprocess.DEVNULL
    ).stdout.decode(encoding='latin-1')

重击:

antiword input_file > output_file

有没有使用反词的用户遇到过此问题,如果有,是否有解决方法?

0 个答案:

没有答案