Question

我正在使用textract从文档中获取文本。我这样使用它：

lines = textract.process(file).decode('utf-8').splitlines()

但是，如果行太长，textract会将其剪切为80个字符。据我所知，textract使用antiword，它有一个选项-w width，如果宽度等于0，则将打印整个段落。 textract中有这样的选项吗？

Answer 1

找到解决方案，必须编辑文件/usr/local/lib/python<version>/dist-packages/textract/parsers/doc_parser.py（这是我系统中的文件）：

stdout, stderr = self.run(['antiword', filename])

应更改为

stdout, stderr = self.run(['antiword', '-w', '0', filename])