我正在使用textract
从文档中获取文本。我这样使用它:
lines = textract.process(file).decode('utf-8').splitlines()
但是,如果行太长,textract
会将其剪切为80个字符。据我所知,textract
使用antiword
,它有一个选项-w width
,如果宽度等于0,则将打印整个段落。 textract
中有这样的选项吗?
答案 0 :(得分:0)
找到解决方案,必须编辑文件/usr/local/lib/python<version>/dist-packages/textract/parsers/doc_parser.py
(这是我系统中的文件):
stdout, stderr = self.run(['antiword', filename])
应更改为
stdout, stderr = self.run(['antiword', '-w', '0', filename])