Python的textract减少了线条

时间:2019-05-26 09:25:50

标签: python

我正在使用textract从文档中获取文本。我这样使用它:

lines = textract.process(file).decode('utf-8').splitlines()

但是,如果行太长,textract会将其剪切为80个字符。据我所知,textract使用antiword,它有一个选项-w width,如果宽度等于0,则将打印整个段落。 textract中有这样的选项吗?

1 个答案:

答案 0 :(得分:0)

找到解决方案,必须编辑文件/usr/local/lib/python<version>/dist-packages/textract/parsers/doc_parser.py(这是我系统中的文件):

stdout, stderr = self.run(['antiword', filename])

应更改为

stdout, stderr = self.run(['antiword', '-w', '0', filename])